El aprendizaje profundo ha estado a la vanguardia de la llamada revolución AI desde hace años, y muchas personas creían que nos llevaría al mundo de la singularidad tecnológica. Muchas compañías hablaron a lo grande en 2014, 2015 y 2016 cuando tecnologías como Alpha Go estaban empujando nuevos límites. Por ejemplo, Tesla anunció que sus autos completamente autodirigidos estaban muy cerca, incluso vendiendo esa opción a los clientes, que luego se habilitaría a través de una actualización de software.

Estamos ahora a mediados de 2018 y las cosas han cambiado. Aún no en la superficie: la conferencia NIPS sigue siendo sobrevendida, las relaciones públicas corporativas todavía tienen IA en todos sus comunicados de prensa, Elon Musk sigue prometiendo autos autodirigidos, y Google sigue presionando la línea de Andrew Ng de que la IA es más grande que la electricidad. Pero esta narrativa está empezando a resquebrajarse.

Y como predije , el lugar donde las grietas en la IA son más visibles es la conducción autónoma, una aplicación real de la Tecnología en el mundo real.

El polvo se asentó en el aprendizaje profundo

Cuando se resolvió con eficacia el desafío reconocimiento visual IMAGEnet (nota: Esto no quiere decir que la visión se resuelve ) durante el período de 2012 a 2017, muchos investigadores prominentes, incluyendo Yann LeCun, Andrew Ng, Fei-Fei Li, y el normalmente tranquilo Geoff Hinton, estaba dando entrevistas de prensa activamente y publicitando en las redes sociales. El tono general fue que estábamos al frente de una gigantesca revolución y desde ese momento las cosas solo se acelerarían.

Bueno, han pasado años y sus feeds de Twitter se han vuelto menos activos, como lo ejemplifican los números de Ng:

  • 2013: 0.413 tweets por día
  • 2014: 0,605 tweets por día
  • 2015: 0.320 tweets por día
  • 2016: 0.802 tweets por día
  • 2017: 0.668 tweets por día
  • 2018: 0.263 tweets por día (hasta el 24 de mayo)

Escala de aprendizaje profundo (no)

Uno de los eslóganes clave que se repite sobre el aprendizaje profundo es que escala casi sin esfuerzo.

En 2012, AlexNet tenía alrededor de 60 millones de parámetros; probablemente ahora tengamos modelos con al menos mil veces ese número, ¿verdad? Bueno, probablemente lo hagamos, la pregunta es, ¿son estas cosas mil veces más capaces? ¿O incluso cien veces más capaz?.

En términos de aplicaciones para visión, vemos que VGG y Resnets saturaron algo alrededor de un orden de magnitud de los recursos de cómputo aplicados, y la cantidad de parámetros realmente se redujo.

Xception, una variante de la arquitectura Google Inception, solo supera levemente a Inception en ImageNet, lo que podría decirse que supera a todos, porque esencialmente AlexNet resolvió ImageNet. Entonces, con 100 veces más computación que AlexNet, saturamos las arquitecturas en términos de clasificación de imágenes. La traducción automática neuronal es un gran esfuerzo de todos los grandes jugadores de búsqueda web, y no es de extrañar que tome todo el cálculo que puede llevar.

¡No te pierdas nuestra pagina de Facebook!!
Haz clic para leer más