Python-データーの中心値
一次元データ
NumPyは数値計算に特化したライブラリー
Jupyter Notebookの出力を少数点以下3桁に抑える
%percision 3
DataFramの出力を少数点以下3桁に抑える
pd.set_optin('precision', 3)
50人の数学お英語のテスト結果を読むt
df = pd.read_csv()
NumPyで計算するために、NumPyのarrayというデータ構造にする
acores = np.array(df['英語'])[:10]
PandasのDataFrameを作る
acores_df = pd.DataFrame({'点数':scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='生徒'))
平均値
sum()/len()
Numpyでは
np.mean()
Dataframeでは
scores_df.mean()
メソッドと関数 Numpyは両方存在する。
pandasでは関数なないのでDataFrameやSeriesのメソッドをつかう。
NumPyやPandasの関数めいは統計用語の英語そのまま、または略語であるので、
主要な統計用語は英語も一緒に覚えることをおすすめします。
中央値
median
中央値は平均値に比べて、外れ値に強いという性質を持ちます。
例として[1,2,3,4,5,6,1000]と大きな外れた値を持ったデータを考えると。
平均値は1000に引っ張られ150になるが、中央値では4になる。
奇数の場合は真ん中になり偶数の場合は2つの数字の平均値になる
np.sort()で並べかえて計算する
NumPyではmedian関数があるので
np.median()
DataFrameやSeriesではmedianメソッド
最頻値
データの中で最も多く出現する値
基本的に質的データの代表値を求めようとする。
pd.Series([1,1,1,2,2,3]).mode()