一、大数据技术发展历史

2004年

Google发表三篇论文，俗称“三驾马车”，内容分别覆盖：

2006年

Hadoop项目从其父项目中剥离出来，成为一个大数据领域的独立项目。Hadoop其实是对Google“三驾马车”的一个实现，其包括分布式文件系统（HDFS）和大数据计算引擎（MapReduce）。

2008年

Facebook发布Hive，支持使用SQL语法来进行大数据计算。Hive会把SQL语句转化成MapReduce的计算程序。

众多Hadoop周边产品出现，形成大数据生态体系：

2011年

涌现出HBase、Cassandra等NoSQL数据库产品。HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。NoSQL系统主要处理海量数据的存储和访问。

2012年

Yarn项目开始运营，随后发展成为大数据平台上的主流资源调度系统。早期MapReduce又是执行引擎，又是资源调度框架。后来把MapReduce的资源调度能力拆解出来由Yarn承接，MapReduce变成了专门的执行引擎。这就是Yarn的由来。

2012年

推出新的大数据计算框架Spark。Spark相比于MapReduce减少了大量的无谓消耗，使用内存作为运算过程的存储介质，极高提升计算性能，逐步在企业中替代MapReduce。

二、大数据应用场景解析

按响应的实时性分类

通常情况下采用批处理技术处理历史全量数据，采用流计算处理实时增量数据。

按应用场景进行分类

医疗、教育、社交媒体、金融、新零售、交通。

（整理自《大数据技术架构：核心原理与技术实践》）