PySpark实践

it2025-03-13 39

大数据入门与实战-PySpark的使用教程：https://www.jianshu.com/p/5a42fe0eed4d

PySpark – SparkContext

class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, serializer = PickleSerializer(), conf = None, gateway = None, jsc = None, profiler_cls = <class 'pyspark.profiler.BasicProfiler'> )

PySpark – RDD

有两种方法:

转换 - 这些操作应用于RDD以创建新的RDD。Filter，groupBy和map是转换的示例

操作 - 这些是应用于RDD的操作，它指示Spark执行计算并将结果发送回驱动程序

count() // 返回RDD中的元素个数 collect() // 返回RDD中的所有元素 foreach(func) // 仅返回满足foreach内函数条件的元素 filter(f) // 返回一个包含元素的新RDD，它满足过滤器内部的功能 map(f, preservesPartitioning = False) // 通过将该函数应用于RDD中的每个元素来返回新的RDD reduce(f) // 执行指定的可交换和关联二元操作后，将返回RDD中的元素 join(other, numPartitions = None) // 它返回RDD，其中包含一对带有匹配键的元素以及该特定键的所有值

最新回复(0)