今日の世界では、人工知能がその不可欠な部分と見なされているため、機械学習は非常に重要です。 データを使用してコンピューター アルゴリズムを研究するのは、機械学習です。
彼らは、タスクをどのように実行するかを予測するために、「トレーニング データ」とも呼ばれるデータを収集します。 機械学習は、医療やメールのフィルタリングなど、さまざまな分野で使用されています。
クラスタリングと分類では、特に機械学習の分野でデータを収集するために統計的手法が使用されます。
主なポイント
- クラスタリングは、特徴に基づいて同様のデータ ポイントをグループ化するために使用される手法であり、分類は、データをその特徴に基づいて事前定義されたクラスに分類します。
- クラスタリングは、データに関する事前知識がなく、その目的が根底にあるパターンを発見する場合に、より役立ちます。 同時に、新しいデータを既存のカテゴリに割り当てることが目標である場合は、分類の方が適しています。
- さまざまなクラスタリング アルゴリズムには、k-means、階層、および DBSCAN が含まれ、さまざまな分類アルゴリズムには、デシジョン ツリー、ロジスティック回帰、およびサポート ベクター マシンが含まれます。
クラスタリングと分類
クラスタリングでは、事前に定義されたカテゴリを使用せずに、類似性に基づいてデータ ポイントをグループ化しますが、分類では、教師あり学習を使用してデータ ポイントを所定のクラスに割り当てます。 主な違いは学習アプローチにあります。クラスタリングは教師なし手法を採用し、分類は教師あり手法に依存しています。

クラスタリングは、機械学習ではクラスター分析とも呼ばれます。 これは、クラスター内のオブジェクトが同様のプロパティを持つようにオブジェクトをグループ化するプロセスですが、別のクラスターと比較すると、そのオブジェクトは非常に似ていません。
このクラスタリング手法は、画像分析、データ圧縮、情報検索、パターン認識、バイオインフォマティクス、コンピューター グラフィックス、機械学習などのプロセスにおける統計的および探索的データ分析に使用されます。
分類は、機械学習では統計的分類とも呼ばれます。 これは、オブジェクトが分類され、分類された一連のコンパートメントに入れられるプロセスです。
分類は定量化可能な観察に基づいて行われます。 分類を組み込んだアルゴリズムは分類子として知られています。 分類は、学習ステップと分類ステップという XNUMX 段階のプロセスに基づいています。
比較表
比較のパラメータ | クラスタリング | 欠陥種類の識別 |
---|---|---|
定義 | クラスタリングは、グループ内のオブジェクトが類似性を持ってクラスター化される手法です。 | 分類とは、コンピュータ プログラムによって入力として与えられた観察を分類するプロセスです。 |
Rescale データ | クラスタリングにはトレーニング データは必要ありません。 | 分類にはトレーニング データが必要です。 |
相 | これには、単一段階、つまりグループ化が含まれます。 | これには、トレーニング データとテストの XNUMX つのステップが含まれます。 |
ラベリング | ラベルのないデータを扱います。 | そのプロセスでは、ラベル付けされたデータとラベル付けされていないデータの両方を処理します。 |
DevOps Tools Engineer試験のObjective | その主な目的は、隠されたパターンと狭い関係を解明することです。 | その目的は、オブジェクトが属するグループを定義することです。 |
クラスタリングとは
クラスタリングは、データを類似性の高いクラスターにグループ化する機械学習の一部ですが、クラスターごとに異なる場合があります。 これは教師なし学習の方法であり、統計データ分析に非常に一般的に使用されます。
K-means、DBSCAN、Fuzzy C-means、階層クラスタリング、Gaussian (EM) など、さまざまな種類のクラスタリング アルゴリズムがあります。
クラスタリングにはトレーニング データは必要ありません。 分類と比較すると、クラスタリングにはデータのグループ化のみが含まれるため、それほど複雑ではありません。 分類のようにすべてのグループにラベルを付けるわけではありません。
これには、グループ化と呼ばれる単一ステップのプロセスがあります。 クラスタリングは、複数の問題に焦点を当てた多目的最適化問題として定式化できます。
クラスタリングは、1932 年にドライバーとクローバーによって人類学の分野で初めて考案されました。その後、さまざまな人々によってさまざまな分野に導入されました。
カルテルは、1943 年に性格心理学における特性理論の分類に一般的なクラスタリングを使用しました。これはハード クラスタリングとソフト クラスタリングとして大まかに区別できます。
顧客分離、ソーシャル ネットワーク分析、動的データ トレンドの検出、クラウド コンピューティング環境など、さまざまなアプリケーションがあります。

分類とは
分類は基本的にパターン認識に使用され、クラスタリングと同様に出力値が入力値に与えられます。 分類はデータマイニングで使用される手法ですが、機械学習でも使用されます。
機械学習では出力が重要な役割を果たし、分類と回帰が必要になります。 クラスタリングとは異なり、どちらも教師あり学習アルゴリズムです。
出力に離散値がある場合、それは分類問題と見なされます。 分類アルゴリズムは、入力が与えられたときに特定のデータの出力を予測するのに役立ちます。
分類には、二項分類、多クラス分類など、さまざまなタイプがあります。
さまざまなタイプの分類には、ニューラル ネットワーク、線形分類子: ロジスティック回帰、単純ベイズ分類子: ランダム フォレスト、デシジョン ツリー、ニアレストも含まれます。 隣人、ブーストツリー。
分類アルゴリズムのさまざまなアプリケーションには、音声認識、生体認証識別、手書き認識、電子メール スパム検出、銀行ローンの承認、文書分類などが含まれます。分類にはトレーニング データが必要で、クラスタリングとは異なり、事前定義されたデータが必要です。 それは非常に複雑なプロセスです。 それは教師あり学習の結果です。 ラベル付きデータとラベルなしデータの両方を扱います。 これには、トレーニングとテストという XNUMX つのプロセスが含まれます。

クラスタリングと分類の主な違い
- クラスタリングは、グループ オブジェクトを類似性を持ってクラスタリングする手法です。 それは教師あり学習の結果です。 分類は、コンピューター プログラムによる入力として与えられた観察を分類するプロセスです。 それは教師なし学習の結果です。
- クラスタリングにはトレーニング データは必要ありません。 分類にはトレーニング データが必要です。
- クラスタリングには、単一段階、つまりグループ化が含まれます。 分類には、トレーニングとテストの XNUMX つのステップが含まれます。
- クラスタリングはラベルのないデータを扱います。 分類では、そのプロセスでラベル付きデータとラベルなしデータの両方が処理されます。
- クラスタリングの主な目的は、隠されたパターンと狭い関係を解明することです。 分類の目的は、オブジェクトが属するグループを定義することです。
