1. TOP
  2. プログラム
  3. ソフト
  4. 統計
  5. 乳ガン診断データセット

乳ガン診断データセット

データの内容

乳がんの検診で腫瘍が見つかった患者に対して腫瘍細胞を採取して
顕微鏡で分析した結果を数値化した情報となっている。
下記の10個の特徴量が、個々の細胞に対して数値化されます。
a) 半径(中心から周囲までの距離の平均)
b) きめ(グレースケール値の標準偏差)
c) 周長
d) 面積
e) 平滑度(半径の長さの局所変数)
f) コンパクト度(境界の2条/面積-1.0)
g) 凹面(輪郭の凹面部分のきつさ)
h) 凹点(輪郭の凹部分の数)
i) 対称性
j) フラクタル度(「海岸線近似」−1)
次に、それぞれの特徴量に対して統計処理が行われ、次の三つの数値が
算出されます。
平均値、標準誤差、最大値
この結果、10x3=30個の数値が精密検査対象の患者に対して導出されます。
この30項目(次元)のデータは、この患者が悪性か良性かという医者の
診断結果(正解データ)ともに、公開データセットの形で入手できます

モデルの目的

目的は、精密検査データを入力とし、診断結果を予測するモデルを作ること
対象業務が医療であるため、モデルが医者の代わりをすることは現実には
難しいですが、医者の診断の補助はできるでしょう。