大数据|数据读取与保存Sequence文件_大数据培训

Sequence文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。Spark 有专门用来读取 SequenceFile 的接口。在 SparkContext 中,可以调用 sequenceFile[keyClass, valueClass](path)。
注意:SequenceFile文件只针对PairRDD
(1)创建一个RDD
scala> val rdd = sc.parallelize(Array((1,2),(3,4),(5,6)))
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[13] at parallelize at :24
【大数据|数据读取与保存Sequence文件_大数据培训】(2)将RDD保存为Sequence文件
scala> rdd.saveAsSequenceFile(“file:///opt/module/spark/seqFile”)
(3)查看该文件
大数据|数据读取与保存Sequence文件_大数据培训
文章图片

(4)读取Sequence文件
scala> val seq = sc.sequenceFile[Int,Int](“file:///opt/module/spark/seqFile”)
seq: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[18] at sequenceFile at :24
(5)打印读取后的Sequence文件
scala> seq.collect
res14: Array[(Int, Int)] = Array((1,2), (3,4), (5,6))

    推荐阅读