Los algoritmos de aprendizaje profundo pueden superar a los humanos en varias áreas, desde clasificar imágenes y leer labios hasta hacer predicciones sobre el futuro . Pero a pesar de sus niveles sobrehumanos de competencia, están en desventaja en la velocidad a la que aprenden. Algunos de los mejores algoritmos de aprendizaje automático tardan cientos de horas en dominar los videojuegos clásicos que, por ejemplo, llevan a la persona promedio a pasar la tarde. Podría tener algo que ver con el neurotransmisor dopamina, según un artículo publicado por la filial de Google DeepMind en la revista Nature Neuroscience .

El metaaprendizaje o el proceso de aprender rápidamente

De ejemplos y derivar reglas de esos ejemplos a través del tiempo, se cree que es una de las razones por las cuales los humanos obtienen nuevos conocimientos de manera más eficiente que sus contrapartes en la computadora. Pero los mecanismos subyacentes del metaaprendizaje siguen siendo poco conocidos.

En un intento de arrojar luz sobre el proceso, los investigadores de DeepMind en Londres modelaron la fisiología humana utilizando una red neuronal recurrente, un tipo de red neuronal que puede internalizar acciones y observaciones pasadas y extraer de esas experiencias durante el entrenamiento. El error de predicción de recompensa de la red, la señal que optimiza matemáticamente el algoritmo a través del método de prueba y error, sustituyó a la dopamina, el químico en el cerebro que afecta las emociones, los movimientos y las sensaciones de dolor y placer, que se cree que juega un papel clave en el proceso de aprendizaje.

Los investigadores liberaron

El sistema de seis experimentos de metaaprendizaje neurocientíficos, comparando su rendimiento con el de los animales que habían sido sometidos a la misma prueba. Una de las pruebas, conocida como Harlow Experiment, le asignó al algoritmo la elección entre dos imágenes seleccionadas al azar, una de las cuales estaba asociada a una recompensa.

En el experimento original, los sujetos (un grupo de monos) aprendieron rápidamente una estrategia para escoger objetos: elegir un objeto aleatoriamente la primera vez, luego elegir objetos asociados a la recompensa el segundo y cada tiempo subsiguiente después de eso.

El algoritmo se comportó de forma muy parecida a los sujetos animales, tomando decisiones relacionadas con recompensas de nuevas imágenes que no había visto antes.

Además, anotaron los investigadores, el aprendizaje tuvo lugar en la red neuronal recurrente, lo que respalda la teoría de que la dopamina desempeña un papel clave en el metaaprendizaje.

El sistema de IA

Se comportó igual incluso cuando los pesos (la fuerza entre dos nodos de la red neuronal, similar a la cantidad de influencia que una neurona de disparo en el cerebro tiene sobre otro) se congelaron. En los animales, se cree que la dopamina refuerza los comportamientos al fortalecer los enlaces sinápticos en la corteza prefrontal. Pero la consistencia del comportamiento de la red neuronal sugiere que la dopamina también transmite y codifica información sobre tareas y estructuras de reglas, según los investigadores.

"Los neurocientíficos han observado durante mucho tiempo patrones similares de activaciones neuronales en la corteza prefrontal, que se adaptan rápidamente y son flexibles, pero han tenido problemas para encontrar una explicación adecuada de por qué ese es el caso", escribió el equipo de DeepMind en una publicación de blog.

"La idea de que la corteza prefrontal no depende de los cambios lentos del peso sináptico para aprender las estructuras de las reglas, sino que está utilizando información abstracta basada en modelos directamente codificada en dopamina, ofrece una razón más satisfactoria para su versatilidad".

¡No te pierdas nuestra pagina de Facebook!!