Spark性能调优-向日葵屋

Spark性能调优

蔚落 2023-02-11 12:25 45阅读 0赞

一.缓存

对于某些工作负载，可以通过在内存中缓存数据或打开某些实验选项来提高性能。
Spark SQL可以通过调用spark.catalog.cacheTable(“tableName”)或使用内存列式格式缓存表dataFrame.cache()。然后，Spark SQL将仅扫描所需的列，并将自动调整压缩以最大程度地减少内存使用和GC压力。可以调用spark.catalog.uncacheTable(“tableName”)从内存中删除表。

可以在SparkSession上使用setConf设置或SET key=value使用SQL 运行命令来完成内存中缓存的配置。

spark.sql.inMemoryColumnarStorage.compressed
默认值：true
含义：设置为true时，Spark SQL将根据数据统计信息自动为每一列选择一个压缩编解码器。
spark.sql.inMemoryColumnarStorage.batchSize
默认值：10000
含义：控制用于列式缓存的批处理的大小。较大的批处理大小可以提高内存利用率和压缩率，但是在缓存数据时更容易出现OOM。

二.其他配置选项

以下选项也可以用于调整查询执行的性能。随着自动执行更多优化，这些选项可能会在将来的版本中被弃用。
在这里插入图片描述

三.Spark动态广播

当两个表进行链接时，广播提示spark表与另一个表或视图要广播的每个指定的表。当Spark确定连接方法时，即使统计数据高于配置，也首选广播哈希连接（即BHJ）spark.sql.autoBroadcastJoinThreshold。当指定了连接的两端时，Spark广播统计信息较少的一方。注意Spark不能保证始终选择BHJ，因为并非所有情况（例如完全外部联接）都支持BHJ。当选择广播嵌套循环联接时，我们仍然遵守提示。

import org.apache.spark.sql.functions.broadcast
broadcast(spark.table("src")).join(spark.table("records"), "key").show()

Spark性能调优

一.缓存

二.其他配置选项

三.Spark动态广播

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关 Spark 性能调优

相关 spark性能调优

相关八、Spark性能调优——JVM 调优

相关六、Spark性能调优——算子调优

相关 Spark性能调优

相关 Spark性能调优

相关 Spark性能调优之Shuffle调优

相关 Spark性能调优

相关 Spark性能调优

相关 Spark性能调优——其他调优方法

随便看看

初识Vue多路由

html submit没有提交数据

MySQL 根据一个值查询数据表中某个字段包含某个数值 | find_in_set()

边缘计算介绍以及几款边缘计算开源平台

git学习之解决Enter passphrase for key ‘/root/.ssh/id_rsa’: 输入问题

RHCS高可用集群下的iscsi共享磁盘与mysql数据库的部署（共享存储硬盘）

教程文章

热评文章

1江湖小白之一起学Python （二）爬取数据的保存

2Java Shiro：简化身份验证和授权的安全框架

3Java中try()catch{}的使用方法

4Swagger注解-@ApiModel 和 @ApiModelProperty

5windows下强制杀死tomcat进程

6uni-app 条形码(一维码)/二维码生成实现

标签列表