UCI公開データセット
公開データセット
機械学習の実習には必ず学習データが必要です。学習データは、例外値を
自然な形で含んでいる点などの観点で実際のデータであることが望ましい。
しかし、機械学習に使われるデータは通常、企業の機密データである可能性
が高く、そうでない場合も、著作権や個人情報保護の問題をクリアした
データである必要があります。
実際には、「実データであり」「権利の問題をクリアしている」という二つ
の条件を満たすデータはなかなか存在しません。この問題をすべてクリアして
いるのが公開データセットで、上に挙げた理由から機械学習モデルの実習によく
利用されます。
公開データセットの中でもUCIデータセットが有名です
UCI公開データセット
1:乳がん診断::Breast Cancer Wisconsin
2:銀行営業::Bank Marketing
3:バイクシェアリング::Bike Sharing Dataset
4:オンライン小売::Online Retail
5:卸売顧客::Wholesale Customer