宽依赖与窄依赖
窄依赖:
是指父RDD的每个分区只被子RDD的一个分区所使用,
子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关)
宽依赖: 是指父RDD的每个分区都可能被多个子RDD分区所使用,
子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关)
宽依赖与窄依赖
窄依赖:
是指父RDD的每个分区只被子RDD的一个分区所使用,
子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关)
宽依赖: 是指父RDD的每个分区都可能被多个子RDD分区所使用,
子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关)