
一、流程
大数据处理的基本流程如下

1.1 数据采集
通过各种形式将数据收集并聚合在一起
常见的数据类型:
- 结构化数据:mysql、oracle中存储的数据
- 半结构化数据:redis、xml等,需要对具体的值进行解析转化为结构化数据
- 非结构化数据:pdf、word、语音等数据
1.2 数据分析
- 批处理 对一段时间内的离线数据统一进行处理
- 流处理 实时处理数据
1.3 数据运用
处理完的数据可以提供个业务系统满足业务系统的数据需求,也有可鞥提供给机器学习算法使用。
1.4 常用框架
- 数据采集工具
- 结构化数据 kettle、datax、streamsets
- 日志采集 flume
- 分布式计算框架
- 批处理 map reduce
- 流处理 storm
- 混合处理 flink、spark
- 分布式文件系统 HDFS
- 分布式数据存储 MongoDB、HBase
- 查询分析框架 Hive、spark sql、flink sql
- 集群资源管理 hadoop yarn
- 分布式协调工具 zookeeper
- 数据迁移工具 Sqooq