El superordenador de IA de Meta, el mayor sistema para clientes de NVIDIA DGX A100 hasta la fecha, proporcionará a los investigadores de «Meta AI» 5 exaflops de rendimiento de IA y cuenta con sistemas NVIDIA de última generación, tejido InfiniBand y software que permite la optimización en miles de GPU.
«Meta Platforms» ha elegido las tecnologías de NVIDIA para lo que cree que será su sistema de investigación más potente hasta la fecha.
El AI Research SuperCluster (RSC) ya está entrenando nuevos modelos para avanzar en la IA. Una vez desplegado por completo, se espera que el RSC de Meta sea la mayor instalación de sistemas NVIDIA DGX A100 de un cliente.
«Esperamos que el RSC nos ayude a crear sistemas de IA totalmente nuevos que puedan, por ejemplo, realizar traducciones de voz en tiempo real a grandes grupos de personas, cada una de las cuales habla un idioma diferente, para que puedan colaborar sin problemas en un proyecto de investigación o jugar juntos a un juego de realidad aumentada».
Meta (blog)
Meta entrena los modelos más grandes de IA
Cuando el RSC esté completamente construido, a finales de año, Meta pretende utilizarlo para entrenar modelos de IA con más de un billón de parámetros. Esto podría suponer un avance en campos como el procesamiento del lenguaje natural para tareas como la identificación de contenidos nocivos en tiempo real.
Además del rendimiento a escala, Meta aboga por la fiabilidad extrema, la seguridad, la privacidad y la flexibilidad para manejar una amplia gama de modelos de IA como sus criterios clave para RSC.
La infraestructura de Meta
El nuevo superordenador de IA utiliza actualmente 760 sistemas NVIDIA DGX A100 como nodos de cálculo. Estos sistemas cuentan con un total de 6.080 GPU NVIDIA A100 conectadas a una red InfiniBand NVIDIA Quantum de 200 Gb/s para ofrecer 1.895 petaflops de rendimiento TF32.
A pesar de los desafíos de COVID-19, RSC tardó solo 18 meses en pasar de ser una idea sobre el papel a un superordenador de IA en funcionamiento; gracias, en parte, a la tecnología NVIDIA DGX A100 en la base de Meta RSC.
Penguin Computing es el socio de NVIDIA Partner Network para RSC. Además de los 760 sistemas DGX A100 y la red InfiniBand, Penguin proporciona servicios gestionados e infraestructura optimizada para la IA de Meta; compuesta por 46 petabytes de almacenamiento en caché con sus sistemas Altus. Pure storage FlasBlade y FlasArray//C proporcionan las capacidades de almacenamiento all-flash de alto rendimiento y escalabilidad necesarias para impulsar el RSC.
Aumento del rendimiento x20
Es la segunda vez que Meta elige las tecnologías de NVIDIA como base de su infraestructura de investigación. En 2017, Meta construyó la primera generación de dicha infraestructura de IA con 22.000 GPUs NVIDIA V100 Tensor Core que manejan 35.000 trabajos de entrenamiento de IA al día.
Las primeras pruebas de Meta mostraron que RSC puede entrenar grandes modelos de PNL 3 veces más rápido y ejecutar trabajos de visión por ordenador 20 veces más rápido que el sistema anterior.
En una segunda fase, a finales de año, RSC ampliará a 16.000 GPUs que proporcionarán 5 exaflops de rendimiento de IA de precisión mixta. Además, Meta pretende ampliar el sistema de almacenamiento de RSC para ofrecer hasta un exabyte de datos a 16 terabytes por segundo.
Una arquitectura escalable
Las tecnologías de IA de NVIDIA están disponibles para empresas de cualquier tamaño.
NVIDIA DGX, que incluye una pila completa de software de IA, se amplía fácilmente desde un único sistema hasta un SuperPOD.
Fuente: NVIDIA