大数据和AI
未读
『大数据基础』11-大数据计算:Spark为什么更快(计算原理)
一、MapReduce执行复杂计算场景 从MapReduce编程模型中可以看到,一个MapReduce程序最多只包含一个map方法和一个reduce方法。但是在复杂计算场景中,往往不止一次的MapReduce就能得到最终结果,有可能需要循环执行多次甚至数万次MapReduce(比如回归任务),也有可
大数据和AI
未读
『大数据基础』10-大数据计算:另一种更快的计算框架Spark
一、Spark实现词频统计 Spark拥有更快的执行速度和更简单易用的编程模型。同样是词频统计任务,Spark只需要以下几行代码,而不用像MapReduce一样写很长的map函数和reduce函数: val textFile = sc.textFile(“hdfs://...”)
val count
大数据和AI
未读
『大数据基础』09-数据仓库:Hive让MapReduce优雅地实现SQL操作
一、Hive诞生的原因 MapReduce编程模型已经极大简化了数据编程的难度,但还是不够简单,每次要针对性地写MapReduce程序。对于数据分析师来说,能直接使用已经烂熟的SQL最好不过。由此诞生了工具:Hadoop大数据仓库Hive(Facebook于2008年发布)。 二、Hive架构原理
大数据和AI
未读
『大数据基础』07-大数据计算:MapReduce数据合并与连接机制shuffle
一、什么是shuffle 在map过程输出与reduce过程输入的中间,有一个过程叫做shuffle,是MapReduce计算框架处理数据合并与连接的操作。分布式计算需要将不同服务器上的相关数据(根据相同的key)汇集到同一个节点的同一个进程进行下一步计算,这就是shuffle。 二、shuffle
大数据和AI
未读
『大数据基础』06-大数据计算:MapReduce作业执行机制(Hadoop 1)
前文提到“MapReduce既是编程模型,也是计算框架”。在Hadoop 1中其作为计算框架时负责在分布式系统中调度程序和资源进行计算。但是在Hadoop 2中MapReduce资源调度的功能就被拆分出来形成了Yarn框架。因此本文的MapReduce作业执行机制仅限于Hadoop 1。 一、Map
大数据和AI
未读
『大数据基础』03-单机存储:RAID单机存储技术
大数据和AI
未读
『大数据基础』02-大数据计算的思路:移动计算而不是数据
大数据和AI
未读
『大数据基础』01-大数据技术发展历史和应用场景简析