大数据基础--简介

Updated on with 0 views and 0 comments

一、流程

大数据处理的基本流程如下

image.png

1.1 数据采集

通过各种形式将数据收集并聚合在一起

常见的数据类型:

  • 结构化数据:mysql、oracle中存储的数据
  • 半结构化数据:redis、xml等,需要对具体的值进行解析转化为结构化数据
  • 非结构化数据:pdf、word、语音等数据

1.2 数据分析

  • 批处理 对一段时间内的离线数据统一进行处理
  • 流处理 实时处理数据

1.3 数据运用

处理完的数据可以提供个业务系统满足业务系统的数据需求,也有可鞥提供给机器学习算法使用。

1.4 常用框架

  • 数据采集工具
    • 结构化数据 kettle、datax、streamsets
    • 日志采集 flume
  • 分布式计算框架
    • 批处理 map reduce
    • 流处理 storm
    • 混合处理 flink、spark
  • 分布式文件系统 HDFS
  • 分布式数据存储 MongoDB、HBase
  • 查询分析框架 Hive、spark sql、flink sql
  • 集群资源管理 hadoop yarn
  • 分布式协调工具 zookeeper
  • 数据迁移工具 Sqooq

标题:大数据基础--简介
作者:wenyl
地址:http://www.wenyoulong.com/articles/2023/10/17/1697510432455.html