Un procedimiento particular para resolver problemas computacionales se conoce como algoritmo. Hay varios tipos de algoritmos.
En programación, el desarrollo de algoritmos tiene un valor diferente a cualquier otra técnica. Un programa necesita un montón de los mejores algoritmos para ejecutarse de manera efectiva.
Harpillera y Random Forest también son dos tipos de algoritmos.
Puntos clave
- El embolsado, o agregación bootstrap, es una técnica que utiliza múltiples modelos para reducir la varianza de la predicción. Al mismo tiempo, el bosque aleatorio es un método de aprendizaje conjunto que amplía el concepto de embolsado al agregar una selección aleatoria de funciones para cada árbol de decisión.
- El embolsado se enfoca en reducir el sobreajuste al promediar las predicciones de múltiples árboles de decisión, mientras que el bosque aleatorio tiene como objetivo mejorar la precisión predictiva al introducir la aleatoriedad en la construcción del árbol.
- Ambas técnicas aprovechan el poder de varios alumnos, pero el bosque aleatorio supera al embolsado debido a su capa adicional de aleatoriedad durante la construcción del árbol.
Embolsado vs bosque aleatorio
Bagging (Bootstrap Aggregating) es un método para construir múltiples modelos (árboles de decisión) en subconjuntos aleatorios de datos de entrenamiento y luego combinar sus predicciones mediante el promedio o la votación. Random Forest es una extensión de Bagging que combina múltiples árboles de decisión para formar un bosque.
El embolsado es un metaalgoritmo diseñado para aumentar y mejorar la precisión y la estabilidad de los algoritmos de aprendizaje automático utilizados en la clasificación de los términos estadísticos y regresión.
Otro nombre para embolsado es agregación de arranque. Es una técnica muy útil para mejorar un programa informático.
Random forest también es un algoritmo conocido como algoritmo de aprendizaje automático supervisado que también está diseñado para mejorar la precisión y la estabilidad en la regresión de términos. Los programadores utilizan ampliamente este algoritmo para resolver problemas de regresión.
Esta técnica funciona mediante la construcción de árboles de decisión para diferentes muestras. También maneja conjuntos de datos que incluyen variables continuas.
Tabla de comparación
Parámetros de comparación | Harpillera | Bosque al azar |
---|---|---|
Año | El ensacado se introdujo en el año 1996 hace casi 2 décadas. Se introdujo el bosque aleatorio. | El algoritmo Random Forest se introdujo en el año 2001. |
Inventor | El algoritmo de embolsado fue creado por un hombre llamado Leo Breiman. | Después del resultado exitoso de embolsar, Leo Breiman creó una versión mejorada de la agregación de arranque, el bosque aleatorio. |
Uso | Para aumentar la estabilidad del programa, los árboles de decisión utilizan el embolsado. | La técnica random forest se utiliza para resolver los problemas relacionados con la clasificación y la regresión. |
Propósito | El objetivo principal del embolsado es entrenar árboles de decisión no podados pertenecientes a los diferentes atardeceres. | El objetivo principal del bosque aleatorio es crear múltiples árboles aleatorios. |
Resultado | El algoritmo de embolsado da el resultado de un modelo de aprendizaje automático con una estabilidad precisa. | El resultado que da random forest es la robustez frente al problema de sobreajuste en el programa. |
¿Qué es el embolsado?
El embolsado es un algoritmo que utilizan muchos programadores en el aprendizaje automático. El otro nombre con el que se conoce el embolsado es bootstrap. agregación.
Se basa en un conjunto y es un meta-algoritmo. El embolsado se utiliza en programas informáticos para aumentar su precisión y estabilidad.
El método del árbol de decisión también ha adaptado el embolsado.
El embolsado se puede considerar como un enfoque de promedio de modelo para casos especiales. Cuando hay sobreajuste en un programa y un aumento en el número de varianzas, se utiliza el embolsado para proporcionar la ayuda necesaria para resolver estos problemas.
El número de conjuntos de datos que se encuentran en el embolsado es de tres, que son conjuntos de datos de arranque, originales y fuera de la bolsa. Cuando el programa selecciona objetos aleatorios del conjunto de datos, este proceso conduce a la creación de una base de datos de arranque.
En el conjunto de datos out-to-bag, el programa representa los objetos restantes que quedan en Bootstrap.
El conjunto de datos de arranque y out-to-bag debe crearse con gran atención, ya que se utilizan para probar la precisión de los programas o algoritmos de embolsado.
Los algoritmos de embolsado generan múltiples árboles de decisión y múltiples conjuntos de datos, y es probable que un objeto se quede fuera. Para hacer un árbol se utiliza para examinar el conjunto de muestras que se han arrancado.
¿Qué es Random Forest?
Random forest es una técnica ampliamente utilizada en programas de aprendizaje automático. También se conoce como algoritmo de aprendizaje automático supervisado.
Random forest toma múltiples muestras diferentes y crea árboles de decisión para resolver el problema relacionado con los casos de regresión y clasificación. La mayoría extraída de los árboles de decisión se utiliza para votar.
Cuando hay variables continuas en los casos de clasificación, los bosques aleatorios brindan ayuda para manejar el conjunto de datos. Se sabe que Random Forest es un algoritmo basado en conjuntos.
Por conjunto, se pueden entender múltiples modelos combinados en el mismo lugar. Los conjuntos utilizan dos métodos, y el embolsado es uno de ellos.
El segundo es impulsar. Una colección de árboles de decisión forma un bosque aleatorio.
Cuando un programador hace árboles de decisión, tiene que hacer que cada árbol sea diferente para mantener la diversidad entre los árboles.
En un bosque aleatorio, el espacio para las características se reduce ya que cada árbol no las considera. Los datos o atributos utilizados para formar cada árbol de decisión son diferentes entre sí.
La creación de bosques aleatorios utiliza una CPU a fondo. Siempre existe una posibilidad del 30 % de que no se utilicen o prueben todos los datos mientras se opera a través de un bosque aleatorio.
Los resultados o salidas dependen de la mayoría proporcionada por los árboles de decisión.
Principales diferencias entre el embolsado y el bosque aleatorio
- El embolsado se usa cuando no se encuentra estabilidad en un programa de aprendizaje automático. Mientras que el bosque aleatorio se utiliza para abordar problemas relacionados con la regresión.
- Bagging ve a través de los árboles de decisión para verificar los cambios necesarios y mejorarlos. Por otro lado, los bosques aleatorios crean árboles de decisión en primer lugar.
- El embolsado se creó en 1996 cuando el aprendizaje automático aún se estaba desarrollando, mientras que el algoritmo de bosque aleatorio se introdujo en 2001.
- Leo Breiman desarrolló y mejoró el embolsado para facilitar el aprendizaje automático y, después de un año, se introdujo el bosque aleatorio como una versión mejorada también desarrollada por Leo.
- El embolsado es un metaalgoritmo que se basa en una técnica de conjunto, mientras que el bosque aleatorio es una forma mejorada de embolsado.
- https://projecteuclid.org/journals/annals-of-statistics/volume-30/issue-4/Analyzing-bagging/10.1214/aos/1031689014.short
- https://link.springer.com/chapter/10.1007/978-3-642-31537-4_13
Última actualización: 11 de junio de 2023
Sandeep Bhandari tiene una Licenciatura en Ingeniería Informática de la Universidad de Thapar (2006). Tiene 20 años de experiencia en el campo de la tecnología. Tiene un gran interés en varios campos técnicos, incluidos los sistemas de bases de datos, las redes informáticas y la programación. Puedes leer más sobre él en su página de biografía.
El artículo fue muy informativo y proporcionó una descripción completa del tema.
De acuerdo, siento que aprendí mucho de esa lectura.
Sí, tenía muchos conceptos erróneos sobre estos algoritmos y ahora siento que los entiendo mucho mejor.
La información proporcionada fue realmente útil.
Sí, creo que los datos estaban muy bien ordenados y todo bien explicado.
La tabla comparativa realmente destacó las características distintivas de las dos técnicas. ¡Gran trabajo!
No encontré la explicación lo suficientemente clara. Es fácil perderse en todos estos detalles técnicos.
La forma en que el artículo describió las diferencias entre Bagging y Random Forest fue simplemente asombrosa.
El artículo presentaba información valiosa, pero era tedioso leer todos esos detalles.
Estoy de acuerdo, es como leer un libro de texto.