研究員リツのNote.

メーカーで研究員しているリツです。主にPythonの解析系のコードのメモ書きをゆるーく残しています。

PythonのPandasを使った行列の標準化・正規化

標準化=一般的に平均0、分散と標準偏差が1になるように値を変化させる
正規化=一般的に最大値を1、最小値0にする

ざっくり分けると
尺度が違うものを比べるときが標準化
値の閾値の上限・下限が決まっているようなものは正規化
標準化すると負の値になるものも出るので、その後の解析で不都合があるときは考えて使う。

#いつものおまじない
import pandas as pd

#データの用意
df = pd.read_csv("./任意.csv")
df.head() #確認

#標準化
# axis=1 で、列ではなく行単位で正規化に変更可能
df.apply(lambda x: (x-x.mean())/x.std(), axis=0)

#正規化
# axis=1 で、列ではなく行単位で正規化に変更可能
df.apply(lambda x: (x-x.min())/(x.max() - x.min()), axis=0)