في عالم اليوم ، يعد التعلم الآلي مهمًا للغاية حيث يُنظر إلى الذكاء الاصطناعي على أنه جزء لا يتجزأ منه. دراسة خوارزميات الكمبيوتر باستخدام البيانات هو ما يفعله التعلم الآلي.
يقومون بجمع البيانات ، المعروفة أيضًا باسم "بيانات التدريب" ، للتنبؤ بكيفية أداء المهام. يستخدم التعلم الآلي في مجموعة متنوعة من المجالات ، مثل الطب ، وتصفية رسائل البريد الإلكتروني ، وما إلى ذلك.
يستخدم التجميع والتصنيف الأساليب الإحصائية لجمع البيانات ، لا سيما في مجال التعلم الآلي.
الوجبات السريعة الرئيسية
- التجميع هو تقنية تستخدم لتجميع نقاط البيانات المتشابهة بناءً على خصائصها ، بينما يصنف التصنيف البيانات إلى فئات محددة مسبقًا بناءً على ميزاتها.
- يكون التجميع أكثر فائدة عندما لا تكون هناك معرفة مسبقة بالبيانات ، والهدف هو اكتشاف الأنماط الأساسية. في الوقت نفسه ، يكون التصنيف أكثر ملاءمة عندما يكون الهدف هو تخصيص بيانات جديدة للفئات الموجودة مسبقًا.
- تشتمل خوارزميات التجميع المختلفة على k-mean ، والتسلسل الهرمي ، و DBSCAN ، بينما تشمل خوارزميات التصنيف المختلفة أشجار القرار ، والانحدار اللوجستي ، وآلات المتجهات الداعمة.
التجميع مقابل التصنيف
يقوم التجميع بتجميع نقاط البيانات بناءً على أوجه التشابه بدون فئات محددة مسبقًا ، بينما يقوم التصنيف بتعيين نقاط البيانات لفئات محددة مسبقًا باستخدام التعلم الخاضع للإشراف. يكمن الاختلاف الرئيسي في نهج التعلم: يستخدم التجميع تقنيات غير خاضعة للإشراف ، ويعتمد التصنيف على الأساليب الخاضعة للإشراف.

يسمى التجميع أيضًا التحليل العنقودي في التعلم الآلي. إنها العملية التي يتم فيها تجميع كائن بطريقة تجعل الكائنات الموجودة داخل المجموعات لها خصائص متشابهة ، ولكن عند مقارنتها بمجموعة أخرى ، فإنها تختلف كثيرًا عنها.
تُستخدم تقنية التجميع هذه في تحليل البيانات الإحصائية والاستكشافية في عمليات مثل تحليل الصور وضغط البيانات واسترجاع المعلومات والتعرف على الأنماط والمعلوماتية الحيوية ورسومات الكمبيوتر والتعلم الآلي.
يسمى التصنيف أيضًا التصنيف الإحصائي في التعلم الآلي. إنها عملية يتم فيها تصنيف الكائنات ووضعها في مجموعة من المقصورات المصنفة.
يتم التصنيف على الملاحظات القابلة للقياس الكمي. تُعرف الخوارزمية التي تتضمن التصنيف باسم المصنف. يعتمد التصنيف على عملية من خطوتين: خطوات التعلم والتصنيف.
جدول المقارنة
معلمات المقارنة | التكتل | تصنيف |
---|---|---|
تعريف | التجميع هو تقنية يتم فيها تجميع الكائنات في مجموعة مع وجود أوجه تشابه. | التصنيف هو عملية يتم فيها تصنيف الملاحظة كمدخلات بواسطة برنامج كمبيوتر. |
البيانات | التجميع لا يتطلب بيانات التدريب. | يتطلب التصنيف بيانات التدريب. |
مرحلة | وهي تشمل مرحلة واحدة ، أي التجميع. | يتضمن خطوتين: بيانات التدريب والاختبار. |
وسم | يتعامل مع البيانات غير الموسومة. | يتعامل مع كل من البيانات المصنفة وغير الموسومة في عملياتها. |
الهدف | هدفها الرئيسي هو كشف النمط الخفي وكذلك العلاقات الضيقة. | هدفها هو تحديد المجموعة التي تنتمي إليها الأشياء. |
ما هو التجميع؟
التجميع هو جزء من التعلم الآلي الذي يقوم بتجميع البيانات في مجموعات ذات تشابه كبير ، ولكن قد تختلف المجموعات المختلفة. إنها طريقة تعلم غير خاضعة للإشراف وتستخدم بشكل شائع لتحليل البيانات الإحصائية.
هناك أنواع مختلفة من خوارزميات التجميع مثل K-mean و DBSCAN و Fuzzy C-mean و Hierarchical clustering و Gaussian (EM).
التجميع لا يتطلب بيانات التدريب. مقارنةً بالتصنيف ، يكون التجميع أقل تعقيدًا لأنه يتضمن تجميع البيانات فقط. لا يعطي تسميات لكل مجموعة مثل التصنيف.
لديها عملية من خطوة واحدة تعرف باسم التجميع. يمكن صياغة المجموعات على أنها مشكلة تحسين متعددة الأهداف تركز على مشاكل متعددة.
تم إنشاء التجميع لأول مرة بواسطة درايفر وكروبر في مجال الأنثروبولوجيا في عام 1932. ثم تم تقديمه إلى المجالات المختلفة بواسطة أشخاص مختلفين.
استخدم كارتل التجميع الشائع لتصنيف نظرية السمات في علم نفس الشخصية في عام 1943. ويمكن تمييزه تقريبًا باسم التجميع الصلب والتكتل الناعم.
وله تطبيقات مختلفة، مثل فصل العملاء، وتحليل الشبكات الاجتماعية، والكشف عن اتجاهات البيانات الديناميكية، وبيئات الحوسبة السحابية.

ما هو التصنيف؟
يستخدم التصنيف أساسًا للتعرف على الأنماط ، حيث يتم إعطاء قيمة المخرجات لقيمة الإدخال ، تمامًا مثل التجميع. التصنيف هو تقنية تستخدم في استخراج البيانات ولكنها تستخدم أيضًا في التعلم الآلي.
في التعلم الآلي ، يلعب الإخراج دورًا مهمًا ، وهناك حاجة إلى التصنيف والانحدار. كلاهما خوارزميات تعلم خاضعة للإشراف ، على عكس التجميع.
عندما يكون للمخرجات قيمة سرية ، فإنها تعتبر مشكلة تصنيف. تساعد خوارزميات التصنيف في التنبؤ بمخرجات بيانات معينة عندما يتم توفير المدخلات لها.
يمكن أن يكون هناك أنواع مختلفة من التصنيفات مثل التصنيف الثنائي ، التصنيف متعدد الفئات ، إلخ.
تشمل الأنواع المختلفة من التصنيف أيضًا الشبكات العصبية ، والمصنفات الخطية: الانحدار اللوجستي ، ومصنف Naïve Bayes: Random Forest ، وشجرة القرار ، والأقرب الجيران، والأشجار المعززة.
تشمل التطبيقات المختلفة لخوارزمية التصنيف التعرف على الكلام ، وتحديد القياسات الحيوية ، والتعرف على خط اليد ، واكتشاف البريد الإلكتروني العشوائي ، والموافقة على قرض البنك ، وتصنيف المستندات ، وما إلى ذلك. يتطلب التصنيف بيانات تدريب ، ويتطلب بيانات محددة مسبقًا ، على عكس التجميع. إنها عملية معقدة للغاية. إنها نتيجة التعلم الخاضع للإشراف. يتعامل مع كل من البيانات المصنفة وغير المصنفة. إنها تنطوي على عمليتين: التدريب والاختبار.

الاختلافات الرئيسية بين التجميع والتصنيف
- التجميع هو تقنية يتم فيها تجميع كائنات المجموعة مع أوجه التشابه. إنها نتيجة التعلم الخاضع للإشراف. التصنيف هو عملية يتم فيها تصنيف الملاحظة كمدخلات بواسطة برنامج كمبيوتر. إنها نتيجة التعلم غير الخاضع للإشراف.
- التجميع لا يتطلب بيانات التدريب. يتطلب التصنيف بيانات التدريب.
- يتضمن التجميع مرحلة واحدة ، أي التجميع. يشمل التصنيف خطوتين: التدريب والاختبار.
- التجميع يتعامل مع البيانات غير الموسومة. يتعامل التصنيف مع البيانات المصنفة وغير الموسومة في عملياته.
- الهدف الرئيسي للتجميع هو كشف النمط الخفي وكذلك العلاقات الضيقة. هدف التصنيف هو تحديد المجموعة التي تنتمي إليها الأشياء.
