收藏本站

人工智能培训机构,上海涛德,算法工程师,数据科学家高端培训机构-上海涛德

什么是Hadoop?

2013-5-16 16:18| 查看: 2881| 评论: 0

摘要: Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开 源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop核心是: 1 HDFS:提供了大数据的存储 2 MapReduce.提 ...

Hadoop 是一个开发和运行处理大规模数据的软件平台,Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

Hadoop一般用于运行应用程序在大型集群的廉价硬件设备上。为应用程序透明的提供了一组稳定/可靠的接口和数据储存。在Hadoop中实现了GoogleMapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统HDFS用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。

Hadoop核心是:

1 HDFS:提供了大数据的存储

2 MapReduce.提供了对数据的计算。

 

Hadoop的集群结构体系主要由 以下对象构成。

1 NameNode:记录元数据信息。例如:文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

2 DataNode 记录数据。.

3 Secondary NameNode 辅助NameNode收集文件系统运行的状态信息。充当NameNode冗余。

4 JobTracker 负责调度为与多个TaskTracker完成计算.

4 TaskTracker负责某一个map或者reduce任务.

<点击:上海涛德Oracle OCM认证及BI商业智能课程>|人工智能培训-上海涛德 ( 沪ICP备14006824号 )|网站地图   My title page contents

GMT+8, 2019-7-18 22:00 , Processed in 0.108136 second(s), 14 queries , Gzip On.

回顶部