2024.1.10 SparkSQL ,函数分类, Spark on HIVE,底层执行流程

目录 一 . 开窗函数 二 . SparkSQL函数定义         1. HIVE_SQL用户自定义函数         2.Spark原生UDF         3. pandasUDF         4. pandasUDAF 三. Spark on HIVE 四.SparkSQL的执行流程 一 . 开窗函数 二 . SparkSQL函数定义         1. HIVE_SQL用户自定义函数...

2024 1.9 Spark_SQL , 数据清洗API , 写出操作

目录 一. DataFrame 详解         1. 数据清洗API          1.去重 :         2. 去除空:         3. 填充替换 :         2. SparkSQL的shuffle分区设置         3 . SparkSQL 数据写出操作                 3.1  写出到文件系统                 3.2  写出到数据库 ...

2024.1.9 Spark SQL day06 homework

目录 一. Spark SQL中数据清洗的API有哪些,各自作用是什么? 二. 设置Spark SQL的shuffle分区数的方式有哪几种 三. 数据写出到数据库需要注意什么? 四. Spark程序运行集群分类 一. Spark SQL中数据清洗的API有哪些,各自作用是什么?         1. 去重          2. 去除空值          3. 填充替换 二. 设置Spark SQL的sh...

2024.1.8 Day04_SparkCore_homeWork

目录 1. 简述Spark持久化中缓存和checkpoint检查点的区别 2 . 如何使用缓存和检查点? 3 . 代码题 浏览器Nginx案例 先进行数据清洗,做后续需求用 1、需求一:点击最多的前10个网站域名 2、需求二:用户最喜欢点击的页面排序TOP10 3、需求三:统计每分钟用户搜索次数 学生系统案例 4. RDD依赖的分类 5. 简述DAG与Stage 形成过程  DAG :   Stage : ...

2024.1.7 Spark SQL , DataFrame

目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同   三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame 四 . 操作DataFrame  SQL方式: DSL方式: 一 . SparkSQL简介 Spark SQL只能处理结构化数据 ,属于Spark框架一个部分  Schema:元数据信息 特点: 融合性 ,统一数据访问,hive兼...

2024 .1.7 Day05_Spark_HomeWork; Spark_SQL

目录 1. 简述Spark  SQL与HIVE的对比 2. Spark SQL是什么? 3.代码题 需求1 直接基于DataFrame来处理,完成SparkSQL版的WordCount词频统计。DSL和SQL两种方式都要实现 4.创建Spark DataFrame的几种方式? 5.  创建得到DataFrame的方式有哪些,各自适用场景是怎么样的?                 3.1 text方式读取:...

2024.1.6 Spark_Core 分词处理,RDD持久化,内核调度

词处理 二 . RDD持久化          1. 使用缓存:          2. RDD的checkpoint检查点:         3. 缓存和 checkpoint的区别:   三 . Spark内核调度         1.RDD依赖         2. DAG 和 Stage          3.shuffle阶段          4.JOB调度流程          5. Spar...

Spark精讲】性能优化:并行度

Reduce端并行度 RDD: 参数:spark.default.parallelism手动:groupByKey(10),10即为并行度Spark SQL: 参数:spark.sql.shuffle.partitionsHive on Spark: Map端加载数据的并行度 textFile等算子加载数据源,如果指定了minPartitions,如果最终切分的split数据大小小于blockSize,则会...

2024.1.4 Spark Core ,RDD ,算子

,关联算子 分区算子: 重分区算子 聚合算子 关联算子: 一 . RDD(弹性分布式数据集) Resilent弹性    Distrbuted分布式        Dataset数据集 1. rdd是Spark底层的数据结构  2. Task 在Spark中就是线程  3 . RDD中的一个分区就是一个线程,分区数有多少线程数就有多少   ,set Master local里设置的就是线程 4. 使用 sc...

Spark精讲】RDD缓存源码分析

Int) extends BlockId { override def name: String = "rdd_" + rddId + "_" + splitIndex} 在executor端调用SparkEnv.get.blockManager.getOrElseUpdate()方法, /** * Gets or computes an RDD partition. Used by RDD.itera...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.005816(s)
2024-05-16 00:38:57 1715791137