1 2 df = spark.sql("QUERY") df.rdd.getNumPartitions()
1 2
df = spark.sql("QUERY") df.rdd.getNumPartitions()
Pyspark에서 withColumn을 통해 하나의 열에 대한 처리가 가능하다. 간단하게는 아래와 같이 처리하면 되지만 udf에 들어가는 input/output이 여러개일때는 스키마를 정리하고 처리해야 한다. from pyspark.sql.types import StructType, StructField, StringType, IntegerType,...
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 import logging def init_logger(name): logger=logging.getLogger(name) logger.setLevel(logging.DEBUG) #Creating Formatters formatter=loggin...
데이터 품질 측정 기준 데이터 품질을 측정하는데 사용되는 기준이 5개가 있다. Accuracy - 설명된 데이터가 무엇이든 정확해야 한다. Relevance - 데이터가 의도된 사용에 대한 요구사항을 충족해야 한다. Completeness - 데이터에 누락된 값이 있거나 누락된 데이터 레코드가 없어야 한다. Timeliness - ...
[Jekyll] Chirpy Theme Favicon, Avatar 세팅
[Pyspark] Data Quaility를 측정하는 방법과 코드
A new version of content is available.