Spark的常用RDD

拼搏现实的明天。 2022-06-01 10:58 218阅读 0赞

1）转换算子--transformations

\++ 合并两个RDD。生产一个新的RDD

cache 缓存rdd，减少之后使用相同逻辑rdd的计算量，只有一个级别 Memery

cartesian 笛卡尔集

coalesce 重新设置分区操作，注意，有两个参数，一个分区个数，是否shuffle。

collect 根据一个偏函数返回一个符合偏函数的结果集RDD

distinct（2种构造）

filter 过滤，根据里面的规则返回一个过滤过后的rdd

flatMap --1对多，可以理解成讲原来的数据集拍扁了

glom --将rdd分区元素变成一个数组元素

groupBy（3种构造） --根据自己定义的规则来划分组

intersection（3种构造）--返回两个rdd中相同的数据集合

keyBy --

map --

mapPartitions--

mapPartitionsWithIndex --多了个分区索引

persist --也是缓存只是可以设置缓存级别

pipe（3种构造）

repartition

sample --抽样

setName

sortBy --根据规则来定义排序。

subtract（3个构造） --》返回rdd2中没有的rdd1元素，可以理解成左关联后去掉交集

toJavaRDD

union -->也就是两个rdd的简单合并

unpersist-->解除某个rdd的缓存

zip -->将两个rdd转换成k/v类型的rdd，注意两个rdd必须保持元素个数和分区数一致

zipPartitions

zipWithIndex

zipWithUniqueId

2）非转换算子--actions

aggregate-->这个函数理解起来可能会有点难，就是说三个参数，初始化值，然后根据初始化值进行对rdd种的元素进行聚合，结束之后每个分区会有一个结果，后面会根据这个分区结果再进行一次聚合

checkpoint -->设立检查点，最安全的rdd缓存,所有父依赖全部移除

collect --

context --

count -- 求rdd中元素的个数

countApprox

countApproxDistinct--快速估算不重复个数

countByValue-->计算rdd中每一种值出现的次数

countByValueApprox

dependencies --依赖，不常用

first --第一个值

fold --和reduce函数是一个意思，只是多了一个初始值，作为每个分区第一次计算的参考值，并且在最终合并操作的时候也是第一个参考值

foreach

foreachPartition

getCheckpointFile --获取checkpoint的文件

getNumPartitions --获取分区个数

getStorageLevel --获取缓存级别

id --

isCheckpointed

isEmpty

iterator-->不能被直接调用 toLocalIterator -->这个是将rdd转换为一个迭代器

max min name partitioner partitions 最大值，最小值，分区，分区

preferredLocations --

saveAsObjectFilesaveAsTextFile SparkContext

taketakeOrdered takeSample

toDebugStringtoString 这个不说了吧，rdd的信息

top --->topN

treeAggregatetreeReduce

randomSplit

reduce

3）other rdd

A、DoubleRdd

histogram -->元素的直方图，根据桶个数来返回值。

mean -->求平均值

meanApprox -->估算平均值

popStdev -->

popVariance 方差

sampleStdev

sampleVariance

stats --统计

stdev -->标准方差

sum

sumApprox

variance

B、OrderedRDDFunctions

filterByRange -->根据range中生成的值返回

repartitionAndSortWithinPartitions-->和repartition差不多，只是会根据自定义的partitioner生成

sortByKey -->根据key来排序呢

C、其他

saveAsSequenceFile

4）tuple类型的RDD

aggregateByKey \[Pair\] -->每个分区根据k做的aggregate

cogroup\[pair\], groupWith \[Pair\]-->根据相同的K来进行合并

collectAsMap\[pair\] -->已map形式来形成collect，注意map中没有相同的key

combineByKey\[pair\] -->比较底层的一个byKey操作。

countApproxDistinctByKey\[pair\] -->根据key来估摸着计算每个key的个数去重的

countByKey\[pair\] -->计算每个key的个数

countByKeyApprox\[pair\] -->估算每个key的个数

flatMapValues\[Pair\] -->针对pairrdd中每个value的flatmap，key不变

flatMapWith -->partitionIndex作为初始当做第一个参数，这个有两个参数(过时，老版本可用)

foldByKey\[Pair\] -->根据key来进行聚合，和reduce很像，但是有个初始值

fullOuterJoin\[Pair\] -->返回相同个数的乘机加不相同个数的和

groupByKey\[Pair\] --->按照key进行聚合

join\[pair\] -->返回匹配成功的当然都是按照k

keys\[pair\] -->返回所有k

leftOuterJoin\[pair\]

lookup\[pair\] 相当于map中的get

mapValues\[pair\] -->真的pairrdd中的每个value的值的map，key保持不变

mapWith -->过期的

partitionBy\[Pair\]

reduceByKey\[Pair\] -->按照k来进行reduce

reduceByKeyLocally\[Pair\],-->落地算子返回map

reduceByKeyToDriver\[Pair\]

rightOuterJoin\[Pair\]

sampleByKey\[Pair\]

saveAsHodoopFile\[Pair\], saveAsHadoopDataset\[Pair\], saveAsNewAPIHadoopFile \[Pair\]

subtractByKey\[Pair\]

values\[Pair\]

Spark的常用RDD

发表评论取消回复

还没有评论，来说两句吧...

相关阅读

相关 Spark RDD

相关 spark系列6：常用RDD介绍与演示

相关 Spark/RDD

相关 Spark RDD

相关 spark RDD

相关 Spark的常用RDD

相关 Spark RDD常用算子整理

相关 Spark-RDD

相关 Spark_RDD

相关 Spark学习笔记（二）：RDD常用操作