pySpark

SparkPython wrapper

Functions

withColumn

스파크 데이터프레임에서 column 을 추가하거나, 한 column 의 값을 다른 값으로 변경 할 때는 withColumn 함수를 이용합니다.

예시) df.withColumn("xx", $"name"): xx 라는 column 을 추가. 추가할때 name 이라는 column 의 값과 동일한 값을 집어넣어줌.

Lit

literal value 로 column 을 생성할 때 사용한다. dataframe 에 없고 내가 원하는 값만 들어가는 column 을 생성하고 싶을때 사용한다.

예시

>>> from pyspark.sql.functions import lit
>>> df1.withColumn('manager1',lit('x1')).show()
+--------+--------+
|manager1|manager2|
+--------+--------+
|      x1|  value2|
|      x1|  value4|
+--------+--------+

Coalesce

Fillna

결측치를 특정 값으로 채운다. subset 옵션을 통해 특정 column 에 동작하도록 설정할 수 있다.

예시: a, b column 에만 fillna 동작 (0 을 채우기)

df.fillna(0, subset=['a', 'b'])

Related

References