Sequence文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。Spark 有专门用来读取 SequenceFile 的接口。在 SparkContext 中,可以调用 sequenceFile[keyClass, valueClass](path)。
注意:SequenceFile文件只针对PairRDD
(1)创建一个RDD
scala> val rdd = sc.parallelize(Array((1,2),(3,4),(5,6)))
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[13] at parallelize at
【大数据|数据读取与保存Sequence文件_大数据培训】(2)将RDD保存为Sequence文件
scala> rdd.saveAsSequenceFile(“file:///opt/module/spark/seqFile”)
(3)查看该文件
文章图片
(4)读取Sequence文件
scala> val seq = sc.sequenceFile[Int,Int](“file:///opt/module/spark/seqFile”)
seq: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[18] at sequenceFile at
(5)打印读取后的Sequence文件
scala> seq.collect
res14: Array[(Int, Int)] = Array((1,2), (3,4), (5,6))
推荐阅读
- spark|Spark SQL的自定义函数UDF
- MQ|kafka 文件存储 消息同步机制
- 开源流式湖仓服务 Arctic 详解(并非另一套 Table Format)
- 数据仓库|数据仓库建设方案详细(系统架构设计)
- 数据仓库|Hive、SparkSQL是如何决定写文件的数量的()
- 大数据|大数据技术面试-项目架构与涉及技术
- 数据仓库|数据仓库完整版
- 数据建模|数据质量维度详解
- HIVE|Hive配置文件中配置项的含义详解