分类: 大数据和AI | 歪循环 WyLoop

互动

最近评论

标签

寻找感兴趣的领域

文章

首页

架构和解决方案

大数据和AI

随便说说

更多

『大数据基础』11-大数据计算：Spark为什么更快（计算原理）

大数据和AI 未读

『大数据基础』11-大数据计算：Spark为什么更快（计算原理）

一、MapReduce执行复杂计算场景从MapReduce编程模型中可以看到，一个MapReduce程序最多只包含一个map方法和一个reduce方法。但是在复杂计算场景中，往往不止一次的MapReduce就能得到最终结果，有可能需要循环执行多次甚至数万次MapReduce（比如回归任务），也有可

Spark 2025-05-12

『大数据基础』10-大数据计算：另一种更快的计算框架Spark

大数据和AI 未读

『大数据基础』10-大数据计算：另一种更快的计算框架Spark

一、Spark实现词频统计 Spark拥有更快的执行速度和更简单易用的编程模型。同样是词频统计任务，Spark只需要以下几行代码，而不用像MapReduce一样写很长的map函数和reduce函数： val textFile = sc.textFile(“hdfs://...”) val count

Spark 2025-05-08

『大数据基础』09-数据仓库：Hive让MapReduce优雅地实现SQL操作

大数据和AI 未读

『大数据基础』09-数据仓库：Hive让MapReduce优雅地实现SQL操作

一、Hive诞生的原因 MapReduce编程模型已经极大简化了数据编程的难度，但还是不够简单，每次要针对性地写MapReduce程序。对于数据分析师来说，能直接使用已经烂熟的SQL最好不过。由此诞生了工具：Hadoop大数据仓库Hive（Facebook于2008年发布）。二、Hive架构原理

Hive 2025-05-07

『大数据基础』08-集群调度：分布式集群资源调度框架Yarn（Hadoop 2）

大数据和AI 未读

『大数据基础』08-集群调度：分布式集群资源调度框架Yarn（Hadoop 2）

MapReduce Hadoop Yarn 2025-02-08

『大数据基础』07-大数据计算：MapReduce数据合并与连接机制shuffle

大数据和AI 未读

『大数据基础』07-大数据计算：MapReduce数据合并与连接机制shuffle

一、什么是shuffle 在map过程输出与reduce过程输入的中间，有一个过程叫做shuffle，是MapReduce计算框架处理数据合并与连接的操作。分布式计算需要将不同服务器上的相关数据（根据相同的key）汇集到同一个节点的同一个进程进行下一步计算，这就是shuffle。二、shuffle

MapReduce 2025-02-05

『大数据基础』06-大数据计算：MapReduce作业执行机制（Hadoop 1）

大数据和AI 未读

『大数据基础』06-大数据计算：MapReduce作业执行机制（Hadoop 1）

前文提到“MapReduce既是编程模型，也是计算框架”。在Hadoop 1中其作为计算框架时负责在分布式系统中调度程序和资源进行计算。但是在Hadoop 2中MapReduce资源调度的功能就被拆分出来形成了Yarn框架。因此本文的MapReduce作业执行机制仅限于Hadoop 1。一、Map

MapReduce Hadoop 2025-01-24

『大数据基础』05-大数据计算：MapReduce既是编程模型也是计算框架

大数据和AI 未读

『大数据基础』05-大数据计算：MapReduce既是编程模型也是计算框架

MapReduce Hadoop 2025-01-21

『大数据基础』04-大数据存储：支持水平伸缩的分布式文件存储系统HDFS

大数据和AI 未读

『大数据基础』04-大数据存储：支持水平伸缩的分布式文件存储系统HDFS

HDFS 分布式高可用 2025-01-20

『大数据基础』03-单机存储：RAID单机存储技术

大数据和AI 未读

『大数据基础』03-单机存储：RAID单机存储技术

RAID 2025-01-19

『大数据基础』02-大数据计算的思路：移动计算而不是数据

大数据和AI 未读

『大数据基础』02-大数据计算的思路：移动计算而不是数据

2025-01-18

『大数据基础』01-大数据技术发展历史和应用场景简析

大数据和AI 未读

『大数据基础』01-大数据技术发展历史和应用场景简析

2025-01-17