機械学習における分類: はじめに
分類は、指定されたデータ ポイントのクラスを予測するプロセスです。 クラスは、ターゲット、ラベル、またはカテゴリと呼ばれることもあります。 分類予測モデリングは、入力変数 (X) から離散出力変数 (y) へのマッピング関数 (f) を近似するタスクです。
たとえば、電子メール サービス プロバイダーでのスパム検出は、分類の問題として特定できます。 「スパム」と「非スパム」としてマークされたクラスは 2 つだけであるため、これは二値分類です。 分類器は、特定の入力変数がクラスにどのように関連するかを理解するために、いくつかのトレーニング データを利用します。 この場合、既知のスパム電子メールと非スパム電子メールをトレーニング データとして使用する必要があります。 分類子が正確にトレーニングされると、未知の電子メールを検出するために使用できます。
分類は教師あり学習のカテゴリに属し、ターゲットにも入力データが提供されます。 分類は、信用承認、医療診断、ターゲット マーケティングなどを含む幅広いタスクに適用できます。
学習者には、怠惰な学習者と熱心な学習者の 2 つのタイプに分類されます。
怠惰な学習者はトレーニング データを保存し、テスト データが表示されるまで待ちます。 その場合、最も関連性の高い保存されたトレーニング データに基づいて分類が実行されます。 熱心な学習者と比較して、怠け者の学習者はトレーニングに費やす時間は短くなりますが、予測にはより多くの時間を費やします。
例:K 最近傍法とケースベースの推論。
熱心な学習者は、分類用のデータを受け取る前に、指定されたトレーニング データに基づいて分類モデルを構築します。 インスタンス空間全体をカバーする単一の仮説にコミットできなければなりません。 このため、熱心な学習者はトレーニングに長い時間がかかり、予測にはあまり時間がかかりません。
例:デシジョン ツリー、ナイーブ ベイズ、人工ニューラル ネットワーク。
機械学習の詳細: すべての初心者が知っておくべき機械学習アルゴリズムのトップ 10
選択できる分類アルゴリズムは多数あります。 適切なものを選択するかどうかは、アプリケーションと利用可能なデータ セットの性質によって異なります。 たとえば、クラスが線形分離可能である場合、ロジスティック回帰やフィッシャーの線形判別式などの線形分類器は高度なモデルよりも優れたパフォーマンスを発揮する可能性があり、その逆も同様です。
デシジョン ツリーは、ツリー構造の形式で分類モデルまたは回帰モデルを構築します。 これは、相互に排他的で分類を網羅する「if-then」ルール セットを利用します。 ルールは、トレーニング データを使用して一度に 1 つずつ順番に学習されます。 ルールが学習されるたびに、そのルールの対象となるタプルが削除されます。 このプロセスは、終了条件を満たすまで継続されます。
ツリーは、トップダウン、再帰的、分割統治方式で構築されます。 すべての属性はカテゴリカルである必要があります。 それ以外の場合は、事前に離散化する必要があります。 ツリーの最上位にある属性は分類に大きな影響を与え、情報獲得の概念を使用して識別されます。
デシジョン ツリーは簡単に過剰適合して分岐が多すぎる可能性があり、ノイズや外れ値による異常を反映する可能性があります。 モデルが過剰に適合すると、トレーニング データでは優れたパフォーマンスを発揮しても、目に見えないデータではパフォーマンスが非常に低下します。 これは、木の構築を早期に停止する前剪定、または完全に成長した木から枝を取り除く後剪定によって回避できます。
Naive Bayes は、属性が条件付きで独立しているという仮定の下で、ベイズの定理からインスピレーションを得た確率的分類器です。
分類は、ベイズの定理に適用される上記の仮定を使用して、最大事後値、つまり最大 P(Ci|X) を導出することによって実行されます。 この仮定により、クラス分布をカウントするだけで計算コストが大幅に削減されます。 属性は依存しているため、ほとんどの場合、この仮定は当てはまりませんが、驚くべきことに、単純なベイズは素晴らしいパフォーマンスを発揮します。
Naive Bayes は実装が簡単なアルゴリズムであり、ほとんどの場合に良好な結果が得られます。 他のタイプの分類子が使用する高価な反復近似ではなく、線形時間がかかるため、より大きなデータセットに簡単に拡張できます。