读取本地数据(linux本地数据)
写法为:
if name == ‘main’:
sc=SparkContext()
rdd1=sc.textFile(‘hdfs://node1:8020/data/data.txt’)
rdd2=sc.textFile(‘/input/1.txt’)
local_path=‘file:///export/data/hdfs.txt’
rdd3=sc.textFile(local_path)
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(“pyspark模板”)
local_path='file:///export/data/hdfs.txt’指的是本地的路径
默认读取的是:
hdfs上的数据
读取本地的数据一般是以file://开头,加上以本地的数据路径