大数据 - 一点一滴

Spark-序列化-spark程序序列化问题

1.transformation操作为什么需要序列化spark是分布式执行引擎，其核心抽象是弹性分布式数据集RDD，其代表了分布在不同节点的数据。Spark的计算是在executor上分布式执行...

2023.03.03 spark 访问: 432 次

1.背景一个类在jvm中是有结构的，但即使是在jvm中，也是一堆数据。网络只能传文本，所以需要序列化和反序列化。通过几种方式的序列化后文本输出到本地文件，可以对比下大小2.jdk的序列化将类的上...

2023.03.03 spark 访问: 454 次

1。引发：做一个java读取hbase的注册成表的程序。但是读出来的是javaPairRDD，而网上都是javaRDD转成dataFrame,我只能自己摸索怎么转成javaRDD 2。方法　　...

2023.02.23 大数据访问: 396 次

ransformations：转换算子Actions：操作算子所谓的转换算子，其实就是通过调用RDD对象的方法，将旧的RDD转换为新的RDD，通过转换，将多个功能组合在一起；如果一个算子的返回值...

2023.02.23 大数据访问: 401 次

读取多个文件为一个RDD读取多个文件为RDD时，我们可以使用textFile()或者wholeTextFiles函数，这两个函数之间的主要的区别在于:返回内容的不同，wholeTextFiles...

2023.02.23 大数据访问: 412 次