1. TOP
  2. プログラム
  3. ソフト
  4. 統計
  5. cancer.target

cancer.target

共通処理

サンプルの冒頭部分に出てくる、共通処理の説明
NumPyやpandasやmatplotlibは機械学習で必須のライブラリです。
japanize_mathplotlibはmatplotlibとグラフ表示のライブラリーで
日本語を扱えるようにする。
Pythonの機械学習プログラムでは、ライブラリー「Pandas」で実装
されるデータフレームという表形式データ構造を非常によく利用します。
データフレームの内容表示はprint関数でも可能ですが、専用のdisplay関数
を使った方が見た目がきれいなので、これを使います。

コード3−1

#共通事前処理
#余計なワーニングを非表示にする
import warnings
warnings.filterwarning('ignore')

#ライブラリのimport
import pandas as pd
inport numpy as np
import matplotlib.pyplot as plt

#matplotlib 日本語化対応
import japanize_matplotlib

#データフレーム表示関数
from ipython.displlay import display

#表示オプション調整
#NumPyの浮動小数点の表示精度
np.set_printoptions(suppres=True, precision=4)
#pandasでの浮動小数点の表示精度
pd.options.display.float_formast = '[:.4f].format'
#データフレームですべての項目を表示
pd.set_option("display.max_columns".None)
#グラフのデフォルトフォント指定
plt.rcParms["font.size"] = 14
#乱数の種
random_seed = 123

ライブラリの読み込み

scikit-learn(ライブラリ名はsklearn)をロードする。
scikit-learnは機械学習でも最も利用されているオープンソース
のライブラリです。モデル生成だけ出なく、データ前処理、評価など
いろいろな場面で使われています。
機械学習でよく使われるデータは関数呼び出しだけで取得できるなって
います。「Breast Cancer Wisconsin Data Set]は、load_breast_cancer関数
を呼び出すだけで、データを読み込めます。
データの読み込み先変数cancerにはいくつかの項目を持つデータが入ってい
まっす。DESCRの内容をprint関数で表示すると、データの詳細説明が読めます。

Pandas

読み込んだデータは、Pandasというライブラリーで実装されるデータフレームと
いう表形式データ構造に変換します。pandasはPythonの機械学習プログラムで
定番といえるライブラリです。
データフレームとは,Python上でExcelのような表形式のデータを簡単に操作する
ための仕組みです。後のデータ確認や、データ前処理がやりやすくなります。
cancer.dataをデータフレームに変換しています。
項目名の一覧、cancer.frature_namesから取得できるのですが、日本語名称の
項目リストcolumnsに差し替えます。
機械学習の世界ではデータフレームの変数名にdfを使うことが多い

正解データ

cancer.targetは、学習だけが目的ならそのままの形でも使えるのですが、
値が0,1の個数をカウントしたいため、その前準備としてpandasのSeriesデータ
として定義しておく。正解データの変数名は、Yを使うことが多い。
データフレームの内容表示はprint関数でも可能ですが