Home
restato's memo
Cancel

[Pyspark] groupby, collect_set 그룹별로 컬럼의 값을 리스트로 변경

from pyspark import SparkContext from pyspark.sql import HiveContext from pyspark.sql import functions as F sc = SparkContext("local") sqlContext = HiveContext(sc) df = sqlContext.createDataFram...

[Zeppelin] Notebook Level Dynamic Form (=Global Variable)

zeppeline에서 세별로 변수를 지정해서 사용하고 있는데, 매번 셀마나 지정하면 모든 셀의 변수를 변경해야 하는 어려움이 있었음. 그래서 notebook level의 dynamic form이 없는지 찾아보니 있네? 아래와 같이 변수 초기화 해주면 노트 맨위에 변수 변경이 가능한 폼이 나옴 노트에서 정의한 전역변수는 $$를 통해 정의후 sql, p...

[Tensorflow] Serving

Tensorflow Serving Architecture https://www.tensorflow.org/tfx/serving/architecture flexible, high-performance serving system for machine learning models designed for production environmen...

[Python] Subparser

subparser를 이용하면 task 별로 parameters를 정의 가능 import argparse def cmd1(args): print('cmd1', args) def cmd2(args): print('cmd2', args) parser1 = argparse.ArgumentParser() parser1.add_argumen...

[Python] Pylint

pip install pylint pylint --generate-rcfile > .pylintrc 코드에서 예외처리를 위해서는 # pylint:disable=line-too-long,....

[Python] Pandas에서 특정 컬럼을 Label로 변경

학습시 label의 값을 0 or 1로 변경할떼 사용 # replace labels train['income'] = np.where(train['income'] == '>50K', 1, 0) val['income'] = np.where(val['income'] == '<=50K', 0, 1) label_key = 'income' labe...

[Python] Pandas에서 특정 컬럼 제외하고 나머지 선택

특정 컬럼 제외하고 나머지 df.loc[:, df.columns != 'b']

[Python] multiprocessing Pool

파이썬에서 큰 리스트가 주어졌을때, 리스트를 multiprocessing을 통해 처리하는 방법, 리스트에 파일 경로가 포함되어 있다면 각 파일별로 프로세스가 처리 import multiprocessing as np def get_stats(filepath): stats = {} with open(filepath) as f: ...

[Pyspark] Wilson Score UDF

def ci_lower_bound(imp, clk, z): # confidence interval lower bound n = imp if n == 0: return 0 # z = 1.0 #1.44 = 85%, 1.96 = 95% phat = float(clk) / n return ((phat + z...

[Kubernetes] Pod에서 sudo 권한 얻기

krew 설치 https://krew.sigs.k8s.io/docs/user-guide/setup/install/ kubectl plugin을 설치/관리할때 사용 # 기존 kubectl exec $POD_NAME -- bash # sudo kubectl exec-as $POD_NAME -- bash