1. TOP
  2. プログラム
  3. ソフト
  4. python
  5. カテゴリーとして

カテゴリーとして

利点

カテゴリーとして
データがカテゴリデータとわかっていると、グラフを書いたりモデル
適合させたりする統計的手続きで、処理の手順を適切に指示できる。
特に、順序尺度データは、Rではordered.factorとして表現でき、グ
ラフ、表、モデルにおいてユーザー定義の順序を保持できる
Pythonでは、
scikit -learnがsklearn.preprocessing.OrdinalEncoder
で順序尺度が扱える。
ストレージ:
容量やインデックスdよりが(関係データベース同様)最適化できる
カテゴリ変数:
での値が、(enumのよように)ソフトウエアで保証できる。

予期せぬ振る舞い

Rのデータインポート関数(例:read.csv)は、カラムのテキスト値
を自動的にfactorに変換する。その後の操作では、そのカラムには
元のインポートされた値しか許されないので、新たなテキスト値の
挿入には警告が出され、NA(欠損値)となる。Pythonんpandasパッケー
ジはそのような自動変換を行わないが、read.csv関数で明示的にカラ
ムをカテゴリーデータと指定できる。