一点一滴

“大数据”

大数据-分类

flink介绍

ApacheFlink®是一款分布式、高可用、持久可用、准确的开源流式处理框架。对无边界数据集的连续处理1.两种数据集类型无边界:连续追加的无限数据集有界:不变的有限数据集2.两种执行模式流式处...

hive 字符串函数

字符串函数字符串长度函数:length语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(...

HIVE 时间操作函数

1.日期函数UNIX时间戳转日期函数from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明...

hive中控制map和reduce数量的简单实现方法

先说结论:  由于mapreduce中没有办法直接控制map数量,所以只能曲线救国,通过设置每个map中处理的数据量进行设置;reduce是可以直接设置的。控制map和reduce的参数set ...

Hive ORC和Parquet

Parquet与ORC对比Parquethttp://parquet.apache.orgOrchttp://orc.apache.org发展状态目前都是Apache开源的顶级项目,列式存储引擎...