Este artículo se centra en el trabajo de aprendizaje automático (ML) "debajo del cofre" que #IBM anunció la semana pasada en #Think 2018, trabajo que pronto acelerará aún más el rendimiento de capacitación de Watson y PowerAI. Esto, coincidentemente, destaca la asociación de IBM con NVIDIA y el acceso a la tecnología de interconexión NVLink de NVIDIA para GPU.

El año pasado, un documento de IBM describía cómo entrenar un modelo de clasificación de imágenes ML en menos de una hora con un 95% de eficacia de escala y un 75% de precisión, utilizando los mismos conjuntos de datos que Facebook utilizó para la capacitación. IBM ejecutó ese punto de referencia de capacitación en la primera mitad de 2017 utilizando el Power System S822LC basado en POWER8 64 para sistemas de computación de alto rendimiento.

Cada uno de esos sistemas tenía cuatro GPU NVIDIA Tesla P100 SXM2-connected y utilizaba la #plataforma de software PowerAI de IBM con Distributed Deep Learning (DDL).

Una nueva biblioteca IBM machine learning

El nuevo documento de IBM, " Snap Machine Learning ", describe una nueva biblioteca IBM machine learning (ML) que usa de manera más efectiva la red disponible, la memoria y los recursos informáticos heterogéneos para las tareas de capacitación de ML. También se basa en una nueva plataforma: servidor IBM Power Systems AC922. El AC922 de IBM tiene cuatro GPU NVIDIA Tesla V100 conectadas a SXM2 conectadas a procesadores dual-POWER9 a través de la última interfaz NVLINK 2.0 de NVIDIA.

Hillery Hunter , una becaria de IBM y directora de Infraestructura Cognitiva Acelerada en IBM Research describió los avances de IBM que contribuyen a Snap ML mejorando el rendimiento como: Un mapeo más efectivo de los #algoritmos de entrenamiento ML para la microarquitectura GPU masivamente paralela.

Escalado más eficiente desde un solo chasis de servidor a un clúster de servidores.

Mejoras en la administración de la memoria al minimizar las comunicaciones entre los nodos de procesamiento heterogéneos (procesadores clásicos y GPU) con un planificador de memoria dinámica que mueve de forma especulativa los datos del procesador a la memoria de la GPU (y viceversa). La integración de IBM de la tecnología de interconexión [VIDEO]NVLink de NVIDIA para comunicaciones mucho más rápidas de IBM POWER9 a NVIDIA Tesla V100, que actualmente se envía en IBM Power Systems AC922

Sin perdida de precisión

El resultado es que las tareas de capacitación que tomaron horas ahora se pueden realizar en segundos sin pérdida de precisión . Esto es posible porque Snap distribuye y acelera esas tareas de manera más eficiente. Snap acelerará muchos tipos de análisis de regresión lineal y logística, incluidas las tareas de aprendizaje profundo (DL).

IBM reclama una aceleración de 46x sobre el registro previamente publicado para entrenamiento ML utilizando el conjunto de datos de entrenamiento de publicidad en línea de Criteo Labs, sin pérdida en la precisión del entrenamiento.

Ese resultado anterior se publicó hace más de un año, pero lo más importante es que Google utilizó instancias de máquinas virtuales (VM) basadas en la nube solo para procesadores para ese resultado. Google puede ensamblar fácilmente las instancias de VM de 60 trabajadores y 29 instancias de VM de parámetros (es decir, 89 instancias totales de procesadores en la nube [VIDEO]) para una ejecución de capacitación.

IBM superó el récord de Google al usar solo cuatro servidores Power System AC922 que contienen dos procesadores POWER9 y cuatro NVIDIA Tesla V100 GPU cada uno. Los resultados comparan 89 instancias de VM basadas en la nube con un total de 24 elementos de computación alojados en cuatro chasis de servidor (8 procesadores y 16 GPU) que rinde 46 veces más rápido. #capacitacion