cancer.target
共通処理
サンプルの冒頭部分に出てくる、共通処理の説明
NumPyやpandasやmatplotlibは機械学習で必須のライブラリです。
japanize_mathplotlibはmatplotlibとグラフ表示のライブラリーで
日本語を扱えるようにする。
Pythonの機械学習プログラムでは、ライブラリー「Pandas」で実装
されるデータフレームという表形式データ構造を非常によく利用します。
データフレームの内容表示はprint関数でも可能ですが、専用のdisplay関数
を使った方が見た目がきれいなので、これを使います。
コード3−1
#共通事前処理
#余計なワーニングを非表示にする
import warnings
warnings.filterwarning('ignore')
#ライブラリのimport
import pandas as pd
inport numpy as np
import matplotlib.pyplot as plt
#matplotlib 日本語化対応
import japanize_matplotlib
#データフレーム表示関数
from ipython.displlay import display
#表示オプション調整
#NumPyの浮動小数点の表示精度
np.set_printoptions(suppres=True, precision=4)
#pandasでの浮動小数点の表示精度
pd.options.display.float_formast = '[:.4f].format'
#データフレームですべての項目を表示
pd.set_option("display.max_columns".None)
#グラフのデフォルトフォント指定
plt.rcParms["font.size"] = 14
#乱数の種
random_seed = 123
ライブラリの読み込み
scikit-learn(ライブラリ名はsklearn)をロードする。
scikit-learnは機械学習でも最も利用されているオープンソース
のライブラリです。モデル生成だけ出なく、データ前処理、評価など
いろいろな場面で使われています。
機械学習でよく使われるデータは関数呼び出しだけで取得できるなって
います。「Breast Cancer Wisconsin Data Set]は、load_breast_cancer関数
を呼び出すだけで、データを読み込めます。
データの読み込み先変数cancerにはいくつかの項目を持つデータが入ってい
まっす。DESCRの内容をprint関数で表示すると、データの詳細説明が読めます。
Pandas
読み込んだデータは、Pandasというライブラリーで実装されるデータフレームと
いう表形式データ構造に変換します。pandasはPythonの機械学習プログラムで
定番といえるライブラリです。
データフレームとは,Python上でExcelのような表形式のデータを簡単に操作する
ための仕組みです。後のデータ確認や、データ前処理がやりやすくなります。
cancer.dataをデータフレームに変換しています。
項目名の一覧、cancer.frature_namesから取得できるのですが、日本語名称の
項目リストcolumnsに差し替えます。
機械学習の世界ではデータフレームの変数名にdfを使うことが多い
正解データ
cancer.targetは、学習だけが目的ならそのままの形でも使えるのですが、
値が0,1の個数をカウントしたいため、その前準備としてpandasのSeriesデータ
として定義しておく。正解データの変数名は、Yを使うことが多い。
データフレームの内容表示はprint関数でも可能ですが