[Pyspark] groupby, collect_set 그룹별로 컬럼의 값을 리스트로 변경

Posted Aug 13, 2021

nil, "width"=>nil, "height"=>nil, "alt"=>nil}" class="preview-img" alt="Preview Image" w="1200" h="630" >

By restato

1 min read

  
from pyspark import SparkContext
from pyspark.sql import HiveContext
from pyspark.sql import functions as F

sc = SparkContext("local")

sqlContext = HiveContext(sc)

df = sqlContext.createDataFrame([
    ("a", None, None),
    ("a", "code1", None),
    ("a", "code2", "name2"),
], ["id", "code", "name"])

df.show()

+---+-----+-----+
| id| code| name|
+---+-----+-----+
|  a| null| null|
|  a|code1| null|
|  a|code2|name2|
+---+-----+-----+

(df
  .groupby("id")
  .agg(F.collect_set("code"),
       F.collect_list("name"))
  .show())

+---+-----------------+------------------+
| id|collect_set(code)|collect_list(name)|
+---+-----------------+------------------+
|  a|   [code1, code2]|           [name2]|
+---+-----------------+------------------+

참고
- https://stackoverflow.com/questions/37580782/pyspark-collect-set-or-collect-list-with-groupby

[Pyspark] groupby, collect_set 그룹별로 컬럼의 값을 리스트로 변경

Further Reading

[Pyspark] withColumn 여러개 파라미터, 결과 여러개 받기

[Pyspark] 코드 정리

[Pyspark] Data Quaility를 측정하는 방법과 코드