大数据基础--HDFS
一、简介 HDFS(Hadoop Distributed File System)是Hadoop下的分布式文件系统具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 二、架构 HDFS架构如下所示,主要包含Namenode、client、datanode三个部分,一个HDFS系统,可以有多个client和datanode但是namenode只能有一个 client客户端包含HDFS的接口,用于访问HDFS的文件 namenode存储文件名,文件元数据,文件与数据块的对应关系 datanode是用于存储数据的节点 三、HDFS相关概念 3.1 block-块 HDFS默认一个块是128M,一个文件可以分为多个块 块的大小远远大于普通文件的大小,可以起到最小化寻址开销的作用 块的好处 支持大规模文件存储,将文件分成多个块,存储在不同节点上 简化系统设计,块的大小是固定的,可以快速查询有多少个块 适合数据备份 3.2 namenode和datanode namenodedatanode 存储元数据存储文件内容 数据保存在内存中数据保存在磁盘中 保存文件、block,datanode之间的....