Spark_搜你所想

【Spark精讲】SparkSQL Join选择逻辑

SparkSQL Join选择逻辑先看JoinSelection的注释翻译下就是：如果是等值join，就先看join hints，顺序如下 broadcast hint：join类型支持的话选择broadcast hash join，如果join的两边都有broadcast hint，选择小的（基于统计）一方去广播sort merge hint：如果join的key是可排序的，选择sort mer...

(view)

2024.1.3 Spark on Yarn部署方式与工作原理

目录 Spark集群类型有以下几种： Spark的部署方式有以下几种： Spark on YARN的部署方式有两种：client模式和cluster模式。 Spark底层的工作原理,执行流程 Spark集群类型有以下几种： Standalone模式：这是Spark自带的一种集群管理模式，可以在单个机器上启动一个Spark集群，适用于开发和测试环境。YARN模式：这是一种分布式资源管理器，可以与Hadoop集...

(view)

2024.1.3 Spark架构角色和提交任务流程

目录一 . Yarn的角色回顾二、Spark提交任务流程 1、Spark On Standalone 2. Spark on Yarn 三. Spark 比MapReduce执行效率高的原因四.Spark的排序算子一 . Yarn的角色回顾资源管理层面集群资源管理者(Master) : ResourceManager 单机资源管理者(Worker) : ...

(view)

【Spark精讲】记一个SparkSQL引擎层面的优化：SortMergeJoinExec

SparkSQL的Join执行流程如下图所示，在分析不同类型的Join具体执行之前，先介绍Join执行的基本框架，框架中的一些概念和定义是在不同的SQL场景中使用的。在Spark SQL中Join的实现都基于一个基本的流程，根据角色的不同，参与Join的两张表分别被称为"流式表"和"构建表"，不同表的角色在Spark SQL中会通过一定的策略进行设定，通常来讲，系统会默认大表为流式表，将小表设定为构建表...

(view)

【大数据面试知识点】Spark的DAGScheduler

Spark数据本地化是在哪个阶段计算首选位置的？先看一下DAGScheduler的注释，可以看到DAGScheduler除了Stage和Task的划分外，还做了缓存的跟踪和首选运行位置的计算。 DAGScheduler注释： DAGScheduler的运行时机 DAGScheduler运行时机：Driver端初始化SparkContext时。DAGScheduler是在整个Spark Applicati...

(view)

【Spark精讲】一文讲透SparkSQL执行过程

SparkSQL执行过程逻辑计划逻辑计划阶段会将用户所写的 SQL语句转换成树型数据结构(逻辑算子树)， SQL语句中蕴含的逻辑映射到逻辑算子树的不同节点。顾名思义，逻辑计划阶段生成的逻辑算子树并不会直接提交执行，仅作为中间阶段。最终逻辑算子树的生成过程经历 3 个子阶段，分别对应未解析的逻辑算子树( Unresolved LogicalPlan，仅仅是数据结构，不包含任何数据信息等 )、解析后的...

(view)

【Spark精讲】一文讲透SparkSQL聚合过程以及UDAF开发

SparkSQL聚合过程这里的 Partial 方式表示聚合函数的模式，能够支持预先局部聚合，这方面的内容会在下一节详细介绍。对应实例中的聚合语句，因为 count 函数支持 Partial 方式，因此调用的是 planAggregateWithoutDistinct 方法，生成了图 7.4 中的两个 HashAggregate (聚合执行方式中的一种，后续详细介绍)物理算子树节点，分别进行局部聚合与最...

(view)

【Spark精讲】一文讲透Spark RDD

数) 。 RDD RDD是只读的。 RDD五大属性：①分区、②依赖、③计算函数、④分区器、⑤首选运行位置。 RDD 则是直接在编程接口层面提供了一种高度受限的共享内存模型，如图下图所示。 RDD 是 Spark 的核心数据结构，全称是弹性分布式数据集 (Resilient Distributed Dataset)，其本质是一种分布式的内存抽象，表示一个只读的数据分区( Partition)集合。一个 RD...

(view)

【Spark面试】Spark面试题&答案

目录 1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆） 2、Spark为什么比MapReduce块？（☆☆☆☆☆） 3、简单说一下hadoop和spark的shuffle相同和差异？（☆☆☆☆☆） 4、Spark工作机制（☆☆☆☆☆） 5、Spark的优化怎么做？（☆☆☆☆☆） 6、数据本地性是在哪个环节确定的？（☆☆☆☆☆） 7、RDD的弹性表现在哪几点？（☆☆☆☆☆） 8、RDD有哪些缺陷？...

(view)

Spark 单机搭建实战指南

摘要：本文将详细介绍如何在单台机器上搭建 Spark 分布式计算框架，涵盖环境准备、安装配置、运行测试等多个方面，帮助读者轻松上手 Spark 开发。一、引言 Apache Spark 是一个开源的分布式计算系统，提供了强大的数据处理和分析能力。在 Hadoop 的基础上，Spark 优化了 MapReduce 计算模型，提高了数据处理速度，被广泛应用于大数据处理、机器学习、图计算等领域。本文将介绍如何...

(view)

上一页 1 3 4 5 6 7 8 9 10 下一页