Python-データーの中心値

投稿：2020年06月14日

一次元データ

NumPyは数値計算に特化したライブラリー
Jupyter Notebookの出力を少数点以下３桁に抑える
%percision 3
DataFramの出力を少数点以下３桁に抑える
pd.set_optin('precision', 3)
５０人の数学お英語のテスト結果を読むt
df = pd.read_csv()
NumPyで計算するために、NumPyのarrayというデータ構造にする
acores = np.array(df['英語'])[:10]
PandasのDataFrameを作る
acores_df = pd.DataFrame({'点数':scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='生徒'))

平均値

sum()/len()
Numpyでは
np.mean()
Dataframeでは
scores_df.mean()
メソッドと関数 Numpyは両方存在する。
pandasでは関数なないのでDataFrameやSeriesのメソッドをつかう。
NumPyやPandasの関数めいは統計用語の英語そのまま、または略語であるので、
主要な統計用語は英語も一緒に覚えることをおすすめします。

中央値

median
中央値は平均値に比べて、外れ値に強いという性質を持ちます。
例として[1,2,3,4,5,6,1000]と大きな外れた値を持ったデータを考えると。
平均値は１０００に引っ張られ150になるが、中央値では４になる。
奇数の場合は真ん中になり偶数の場合は２つの数字の平均値になる
np.sort()で並べかえて計算する
NumPyではmedian関数があるので
np.median()
DataFrameやSeriesではmedianメソッド

最頻値

データの中で最も多く出現する値
基本的に質的データの代表値を求めようとする。
pd.Series([1,1,1,2,2,3]).mode()

興味津々

Python-データーの中心値

一次元データ

平均値

中央値

最頻値