一点一滴

“大数据”

大数据-分类

Spark-序列化-问题全解

在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: Task not serializable at org.apache.spar...

hadoop文件序列化

1、为什么要序列化? 一般来说,"活的"对象只存在内存里,关机断电就没有了。而且"活的"对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然...

Spark-序列化-spark程序序列化问题

1.transformation操作为什么需要序列化spark是分布式执行引擎,其核心抽象是弹性分布式数据集RDD,其代表了分布在不同节点的数据。Spark的计算是在executor上分布式执行...

Spark-序列化 spark(kryo)、hadoop(writable)、jdk(serializable)

1.背景一个类在jvm中是有结构的,但即使是在jvm中,也是一堆数据。网络只能传文本,所以需要序列化和反序列化。通过几种方式的序列化后文本输出到本地文件,可以对比下大小2.jdk的序列化将类的上...

spark学习:java版JavaRDD与JavaPairRDD的互相转换

1。引发:做一个java读取hbase的注册成表的程序。但是读出来的是javaPairRDD,而网上都是javaRDD转成dataFrame,我只能自己摸索怎么转成javaRDD 2。方法   ...