大数据架构与技术自学笔记

其实是一门选修课，但是说是选修，因为学分原因也是要必选的，所以就当它是必修吧。

Hadoop狭义上来讲，就是一款处理分布式的开源软件
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈
Hadoop的核心组件
1. Hadoop HDFS（分布式文件存储系统）：解决海量数据存储
2. Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度
3. Hadoop MapReduce（分布式计算框架）：解决海量数据计算
可以理解为mysql统治了数据库的半壁江山。
HDFS作为分布式文件存储，处于生态圈的底层与核心地位。
YARN作为分布式通用的集群资源管理系统和任务调度平台，支持各种计算引擎运行，保证了Hadoop地位。
MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

Hadoop的发行版本
1. 开源社区版：Apache开源社区官方开源版本
  - 优点：更新速度快，免费
  - 缺点：兼容/稳定性不周
2. 商业发型版：基于Apache开源协议，由商业公司发行的版本
  - 优点：稳定兼容性好
  - 缺点：收费，更新速度慢
  - Cloudera, Hortonworks
Hadoop的大版本有3个，1.0没有引入YARN这个组件，只靠MapReduce去实现资源管理和数据处理，所以效率很慢。2.0改变架构，引入了YARN这个组件，专注于资源管理，使MapReduce专注于数据处理，效率提升。3.0架构没变，只是做了性能优化。