Búsqueda de sitios web

Deep Belief Network (DBN) en aprendizaje profundo


<h2>Introducción <p>Las redes de creencias profundas (DBN) son un tipo de arquitectura de aprendizaje profundo que combina principios de aprendizaje no supervisado y redes neuronales. Están compuestos por capas de máquinas Boltzmann restringidas (RBM), que se entrenan una a la vez sin supervisión. El resultado de un RBM se utiliza como entrada para el siguiente RBM, y el resultado final se utiliza para tareas de aprendizaje supervisado, como clasificación o regresión.

Red de creencias profundas

Los DBN se han utilizado en diversas aplicaciones, incluido el reconocimiento de imágenes, el reconocimiento de voz y el procesamiento del lenguaje natural. Se ha demostrado que logran resultados de última generación en muchas tareas y son una de las arquitecturas de aprendizaje profundo más poderosas disponibles actualmente.

Dado que no utilizan entradas sin procesar como los RBM, los DBN también difieren de otros algoritmos de aprendizaje profundo como los codificadores automáticos y las máquinas Boltzmann restringidas (RBM). En cambio, operan en una capa de entrada con una neurona para cada vector de entrada y pasan por numerosos niveles antes de llegar a la capa final, donde las salidas se producen utilizando probabilidades adquiridas de capas anteriores.

Arquitectura de DBN

La estructura básica de una DBN se compone de varias capas de RBM. Cada RBM aprende una distribución de probabilidad a partir de los datos de entrada, que es un modelo generativo. Mientras que las capas sucesivas de la DBN aprenden características de nivel superior, la capa inicial de la DBN aprende la estructura fundamental de los datos. Para tareas de aprendizaje supervisado como clasificación o regresión, se utiliza la última capa del DBN.

Cada RBM en un DBN se entrena de forma independiente mediante divergencia contrastiva, que es un método de aprendizaje no supervisado. El gradiente de la probabilidad logarítmica de los datos para los parámetros del RBM se puede aproximar utilizando este método. La salida de un RBM entrenado se utiliza luego como entrada para el RBM posterior, lo que se realiza apilando los RBM entrenados uno encima del otro.

Una vez entrenado el DBN, se pueden realizar tareas de aprendizaje supervisado ajustando los pesos de la capa final utilizando una técnica de aprendizaje supervisado como la retropropagación. Este proceso de ajuste puede mejorar el desempeño del DBN en la tarea específica para la que fue capacitado.

Evolución de DBN

La primera generación de redes neuronales, llamadas perceptrones, es extraordinariamente potente. Dependiendo de nuestra respuesta, pueden ayudarnos a reconocer un objeto en una imagen o medir cuánto disfrutamos de una determinada cocina. Pero están limitados. Con frecuencia consideran una información a la vez y les resulta difícil comprender el contexto de lo que sucede a su alrededor.

Un tipo de red neuronal de segunda generación. La retropropagación es una técnica que compara la salida recibida con el resultado deseado y reduce el valor del error hasta que sea cero, lo que significa que cada perceptrón finalmente alcanzará su estado ideal.

Los gráficos acíclicos dirigidos (DAG), comúnmente conocidos como redes de creencias, son el siguiente paso y ayudan con los problemas de inferencia y aprendizaje. Nos da más control que nunca sobre nuestros datos.

Finalmente, las redes de creencias profundas (DBN) se pueden utilizar para crear valores justos que luego podemos almacenar en nodos hoja, asegurando que, sin importar lo que ocurra durante el proceso, siempre tengamos a mano la solución adecuada.

Funcionamiento de DBN

Para obtener señales de entrada de píxeles directamente, debemos entrenar una capa de propiedades. Luego, al tratar los valores de estos grupos de interés en competencia como píxeles, descubrimos las características de las características que se obtuvieron inicialmente. Cada nueva subcasta de parcelas o características que agregamos a la red eleva el límite inferior de la responsabilidad logarítmica del conjunto de datos de entrenamiento.

A continuación se describe el proceso operativo de la red de creencias profundas:

  • Comenzamos realizando múltiples iteraciones de muestreo de Gibbs en las dos capas ocultas superiores. Las dos capas ocultas superiores definen el RBM. Como resultado, esta etapa elimina con éxito una muestra.

  • Después de eso, ejecute una única pasada de muestreo ancestral por el resto del modelo para crear una muestra a partir de las unidades visibles.

  • Emplearemos un enfoque único ascendente para determinar los valores de las variables latentes en cada capa. El preentrenamiento codicioso comienza con un vector de datos observado en la capa más baja. Luego ajusta los pesos generativos en la otra dirección.

Ventajas de DBN

Una de las principales ventajas de los DBN es su capacidad para aprender características de los datos sin supervisión. Esto significa que no requieren datos etiquetados, lo que puede resultar difícil y llevar mucho tiempo. Los DBN también pueden aprender una representación jerárquica de los datos, y cada capa aprende características cada vez más sofisticadas. Para aplicaciones como la identificación de imágenes, donde las primeras capas pueden captar detalles fundamentales como los bordes, esta representación jerárquica puede resultar muy útil. Las capas posteriores, sin embargo, son capaces de aprender propiedades más complejas, como formas y objetos.

Además, los DBN han demostrado ser resistentes al sobreajuste, un problema importante en el aprendizaje profundo. Esto se debe a la contribución de los RBM a la regularización del modelo durante su preentrenamiento no supervisado. El riesgo de sobreajuste se minimiza utilizando simplemente una pequeña cantidad de datos etiquetados durante la fase de ajuste.

Otras arquitecturas de aprendizaje profundo, como las redes neuronales convolucionales (CNN) y las redes neuronales recurrentes, pueden inicializar sus pesos mediante DBN (RNN). Como resultado, estas arquitecturas pueden comenzar con un conjunto sólido de pesos iniciales, lo que puede aumentar su rendimiento.

La capacidad de las DBN para gestionar los datos faltantes es otro beneficio. En muchas aplicaciones del mundo real sucede con frecuencia que algunos datos están dañados o faltan. Como están diseñadas para funcionar con datos completos y correctos, las redes neuronales tradicionales pueden necesitar ayuda para manejar los datos faltantes. Sin embargo, al emplear un método conocido como "abandono", se puede enseñar a los DBN a aprender características sólidas que no se ven afectadas por la existencia de datos faltantes.

Los DBN también se pueden emplear para actividades generativas como la creación de texto e imágenes. El DBN puede aprender una distribución de probabilidad de los datos gracias al preentrenamiento no supervisado de los RBM, y se pueden producir nuevas muestras que se asemejen a los datos del entrenamiento. Esto puede resultar útil en programas de software como la visión por computadora, que pueden crear nuevas imágenes según las etiquetas u otras cualidades.

La cuestión de los gradientes que desaparecen se encuentra entre las principales dificultades en el entrenamiento de redes neuronales profundas. Los gradientes utilizados para actualizar los pesos durante el entrenamiento pueden volverse muy pequeños a medida que aumenta el número de capas de la red, lo que dificulta entrenar la red de manera eficiente. Debido al entrenamiento previo no supervisado de los RBM, los DBN pueden resolver este problema. Cada RBM aprende una representación de los datos durante el preentrenamiento que es comparativamente estable y no se altera dramáticamente con cambios menores de peso. Esto significa que los gradientes utilizados para actualizar los pesos son significativamente mayores cuando el DBN se optimiza para un trabajo supervisado, lo que mejora la eficiencia del entrenamiento.

Los DBN se han utilizado eficazmente en una variedad de industrias, además de las tareas estándar de aprendizaje profundo, incluida la bioinformática, el desarrollo de fármacos y la previsión financiera. Los DBN se han empleado en bioinformática para encontrar patrones en datos de expresión genética que sugieran enfermedades, que pueden utilizarse para crear nuevas herramientas de diagnóstico. Los DBN se han utilizado en el descubrimiento de fármacos para encontrar compuestos novedosos con potencial para convertirse en medicamentos. Los precios de las acciones y otras variables financieras se han predicho utilizando DBN en la industria financiera.

Conclusión

En conclusión, la poderosa arquitectura de aprendizaje profundo conocida como DBN se puede aplicar a una variedad de tareas. Se componen de capas RBM que se enseñan sin supervisión y el aprendizaje supervisado se aplica a la capa final. Las DBN son una de las arquitecturas de aprendizaje profundo más potentes disponibles actualmente y se ha demostrado que producen resultados de última generación en una variedad de tareas. Pueden aprender funciones de los datos sin supervisión, son resistentes al sobreajuste y pueden usarse para establecer los pesos de otras arquitecturas de aprendizaje profundo.