ZAKER汽车|HDFS设计思想和相关概念( 三 )


HDFS上的块为什么远远大与传统文件系统 , 是有原因的 。 目的是为了最小化寻址开销时间 。
HDFS寻址开销不仅包括磁盘寻道开销 , 还包括数据库的定位开销 , 当客户端需要访问一个文件时 , 首先从名称节点获取组成这个文件的数据块的位置列表 , 然后根据位置列表获取实际存储各个数据块的数据节点的位置 , 最后 , 数据节点根据数据块信息在本地Linux文件系统中找到对应的文件 , 并把数据返回给客户端 , 设计一个比较大的块 , 可以把寻址开销分摊到较多的数据中 , 相对降低了单位数据的寻址开销
举个例子:块大小为128MB , 默认传输效率100M/s,寻址时间为10ms , 那么寻址时间只占传输时间的1%左右
当然 , 块也不能太大 , 因为另一个核心技术MapReduce的map任务一次只处理一个数据块 , 如果任务太少 , 势必会降低工作的并行处理速度 。
【ZAKER汽车|HDFS设计思想和相关概念】HDFS的块概念 , 在解决了大数据集文件的存储同时 , 不仅解决了文件存取的网络瓶颈问题 , 还