一点一滴

“大数据”

大数据-分类

spark学习:java版JavaRDD与JavaPairRDD的互相转换

1。引发:做一个java读取hbase的注册成表的程序。但是读出来的是javaPairRDD,而网上都是javaRDD转成dataFrame,我只能自己摸索怎么转成javaRDD 2。方法   ...

Spark中的算子

ransformations:转换算子Actions:操作算子所谓的转换算子,其实就是通过调用RDD对象的方法,将旧的RDD转换为新的RDD,通过转换,将多个功能组合在一起;如果一个算子的返回值...

Spark读取多个文件为一个RDD

读取多个文件为一个RDD读取多个文件为RDD时,我们可以使用textFile()或者wholeTextFiles函数,这两个函数之间的主要的区别在于:返回内容的不同,wholeTextFiles...

全面解读数据湖与数据仓库的区别

大数据时代,数据存储对任何机构来说都是一件头等大事。从数据仓库(Data Warehouse),到如今如火如荼的数据湖(Data Lake),都被机构广泛应用于大数据存储,但从结构和处理方式上都...

详解数据湖,概念、特征、架构、方案、场景以及建湖全过程

https://blog.csdn.net/huzechen/article/details/123143902导读:最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?有没有成熟...