吐血整理:盘点19种大数据处理的常见工具
发布时间:2021-06-04 17:33:14 所属栏目:大数据 来源:互联网
导读:大数据的生命周期分为数据获取(data acquisition)、数据存储(data storage)、数据分析(data analysis)以及结果(result),并且将前述大数据处理的三代技术中相关的工具映射至数据获
大数据的生命周期分为数据获取(data acquisition)、数据存储(data storage)、数据分析(data analysis)以及结果(result),并且将前述大数据处理的三代技术中相关的工具映射至数据获取、数据存储和数据分析三个环节来进行分类讨论,详情如表1-2所示。
吐血整理:盘点19种大数据处理的典型工具
▲表1-2 大数据处理的典型工具
在数据获取阶段,通常涉及从多源异构的数据源获取数据,这些数据源可能是批处理数据源,也有可能是实时流数据源;
在数据存储阶段,需要对前一阶段已经获取到的数据进行存储,以便进行后续的分析与处理,常见的存储方式有磁盘(disk)形式和无盘(diskless)形式。
在数据分析阶段,针对不同的应用需求,会运用各类模型和算法来对数据进行分析与处理。
在表1-2中,三代技术中不同的处理阶段所涉及的工具存在重叠。此外,对于混合计算技术,其本身同时涉及批处理技术和实时处理技术,实现混合计算模型的技术也要比单纯的批处理技术和实时处理技术更加复杂;鉴于混合计算技术的上述特点,这里不对在数据的获取、存储与分析方面所涉及的具体工具做特别的划分。
01 HDFS
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)目前是Apache Hadoop项目的一个子项目,与已有的分布式文件系统有很多相似之处。
吐血整理:盘点19种大数据处理的典型工具
此外,作为专门针对商业化硬件(commodity hardware)设计的文件系统,HDFS的独特之处也很明显:首先其具有很高的容错性,其次可以部署在较为廉价的硬件上,最后能够提供高吞吐量的应用数据访问能力。
对于终端用户而言,HDFS就是一个传统的文件系统,具有文件和目录的创建、修改、删除等常规操作。
HDFS采用主/从(Master/Slave)体系结构。单个HDFS集群仅包含一个名称节点(NameNode),其提供元数据服务,管理文件系统的命名空间(namespace),并引导用户对文件的访问。此外,单个HDFS集群可以包含多个数据节点(DataNode),数据节点负责管理与自身相关联的存储空间。
HDFS对外给出文件系统的命名空间作为用户对数据进行访存的接口。
在HDFS内部,单个文件通常被分割成多个块(block),这些块存储在一系列数据节点上。由名称节点在整个HDFS集群的命名空间上执行文件和目录的打开、读取和关闭等操作。文件的块与数据节点之间的映射也是由名称节点管理的。数据节点基于名称节点的指令来实施块的创建、复制和删除等。
![]() (编辑:保山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |