La alimentación y enfriamiento de la IA y la computación acelerada en la sala de datos

 La inteligencia artificial (IA) ha llegado para quedarse. “Todas las industrias se convertirán en industrias tecnológicas”, afirma Jensen Huang, fundador y director ejecutivo de NVIDIA. Los casos de uso para la IA son prácticamente ilimitados, desde los grandes avances en medicina hasta la prevención de fraudes con gran precisión. La IA está transformando nuestras vidas al igual que está transformando cada industria. Además, ha comenzado a transformar radicalmente la infraestructura del centro de datos.


Las cargas de trabajo de la IA están provocando cambios importantes en la manera en la cual alimentamos y enfriamos los datos procesados como parte de la computación de alto rendimiento (HPC, por sus siglas en inglés). Un rack de TI típico usado para operar cargas de trabajo de 5-10 kilovatios (kW) y los racks que operan cargas por encima de los 20 kW se consideraban de alta densidad, algo poco común fuera de aplicaciones muy específicas y de poco alcance. La IA está siendo agilizada con las GPU para satisfacer las necesidades de computación de los modelos de IA y estos chips de IA pueden requerir hasta cinco veces más alimentación y capacidad de enfriamiento1 en el mismo espacio que un servidor tradicional. Mark Zuckerberg anunció que para finales de 2024, Meta invertiría miles de millones de dólares para implementar 350.000 GPU NVIDIA H100. Las densidades de los racks de 40 kW por rack se encuentran en el escalón más bajo de lo que se necesita para facilitar las implementaciones de la IA, con densidades de rack por encima de los 100 kW por rack cada vez más comunes y a gran escala en el futuro cercano.

Esto exigirá aumentos considerables de capacidad en todo el tren de potencia desde la red eléctrica hasta los chips en cada rack. Introducir tecnologías de enfriamiento líquido en el espacio libre del centro de datos y eventualmente en las salas de servidores será un requisito para la mayoría de implementaciones, ya que los métodos de enfriamiento tradicionales no serán capaces de manejar el calor generado por las GPU que operan los cálculos de IA. Las inversiones hechas para actualizar la infraestructura necesaria para alimentar y enfriar el hardware de IA son considerables y enfrentarse a estos nuevos desafíos de diseño es crítico.
La transición a la alta densidad

La transición a la computación acelerada no ocurrirá de la noche a la mañana. Los diseñadores de salas de servidores y centros de datos deberán buscar maneras de preparar la infraestructura de potencia y enfriamiento para el futuro y tomar en cuenta el crecimiento futuro de sus cargas de trabajo. Obtener la potencia necesaria para cada rack exige actualizaciones que van desde la red eléctrica hasta el rack. En el caso del espacio libre, esto probablemente se traduzca en rPDU de alta densidad y busway de alto amperaje. Para expulsar la enorme cantidad de calor generado por el hardware que opera las cargas de trabajo de la IA, dos tecnologías de enfriamiento líquido son las principales opciones emergentes:El enfriamiento líquido directo al chip: las placas frías se colocan sobre los componentes generadores de calor (por lo general chips como CPU y GPU) para extraer el calor. El fluido monofásico y bifásico bombeado extrae el calor de la placa fría para enviarla fuera del centro de datos por medio del intercambiar el calor, pero no los fluidos con el chip. Esto puede eliminar un 70-75 % del calor generado por el equipo en el rack y el 25-30 % restante deberá ser eliminado por los sistemas de aire acondicionado.

Los intercambiadores de calor de puerta trasera: los intercambiadores de calor pasivos y activos reemplazan la puerta trasera del rack de TI con los serpentines intercambiadores de calor, a través de los cuales el fluido absorbe el calor producido en el rack. Por lo general, estos sistemas se combinan con otros sistemas de enfriamiento, ya sea como estrategia para mantener la neutralidad de la sala o como un diseño de transición hacia el enfriamiento líquido.

Aunque el enfriamiento líquido directo al chip ofrece una capacidad de enfriamiento considerablemente mayor que el aire, cabe destacar que sigue existiendo un calor excesivo que las placas frías no pueden capturar. Este calor será expulsado en el centro de datos a menos que se contenga y elimine a través de otros medios como los intercambiadores de calor de puerta trasera o el aire de enfriamiento de la sala. Para más detalles sobre las soluciones de enfriamiento líquido para centros de datos, eche un vistazo a nuestro artículo técnico.

Los kits de inicio de IA para actualizaciones y construcciones nuevas

La potencia y el enfriamiento se están convirtiendo en parte integral de la solución de TI en la sala de datos, con lo cual se difuminan las diferencias entre los equipos de TI y de instalaciones. Además, esto agrega un alto grado de complejidad a la hora de diseñar, implementar y operar. Las asociaciones y la experiencia integral son los principales requisitos para una transición fluida a mayores densidades.

Para simplificar el cambio a la alta densidad, Vertiv ha presentado una amplia gama de diseños optimizados, los cuales incluyen tecnología de potencia y enfriamiento capaz de soportar cargas de trabajo de hasta 100 kW por rack en varias configuraciones de implementación.

 

Resumen de diseñoRacksDensidad/rackCampo verde/caféEliminación de calor
del servidorde la sala

Pilotos de modelos de capacitación, inferencia de borde a escala

Actualización mínima de HPC pequeña170 kWCampo caféagua/glicolaire
Small HPC retrofit for chilled water system1100 kWCampo caféagua/glicolagua/glicol

Capacitación centralizada para empresas, rincón de IA en el centro de datos

Actualización de HPC mediana con costos optimizados3100 kWCampo caféagua/glicolrefrigerante
HPC mediana con mayor captura térmica4100 kWCampo café
Campo verde
agua/glicol+aireagua/glicol
Actualización pragmática de HPC mediana con salas de computadoras enfriadas por aire540 kWCampo café
Campo verde
airerefrigerante
HPC mediana5100 kWCampo café
Campo verde
agua/glicolagua/glicol

Fábrica de IA a gran escala

HPC grande que mantiene la neutralidad de la sala12100 kWCampo café
Campo verde
agua/glicol+aireagua/glicol
Edificio de HPC grande hacia escala14100 kWCampo café
Campo verde
agua/glicolagua/glicol




Estos diseños ofrecen muchas posibilidades para que los integradores de sistemas, los proveedores de servicios de coubicaciones, los proveedores de servicios en la nube o los usuarios empresariales logren hoy el centro de datos del futuro. Cada instalación específica puede tener matices en lo relacionado con la densidad y el número de racks dictados por la selección de equipos de TI. Esta colección de diseños ofrece una manera intuitiva de delimitarse a un diseño base y personalizarlo según las necesidades de implementación.

A la hora de modernizar o reutilizar los entornos existentes para la IA, nuestros diseños optimizados permiten minimizar las interrupciones de las cargas de trabajo existentes por medio de aprovechar la infraestructura de enfriamiento disponible y la eliminación del calor cuando sea posible. Por ejemplo, podemos integrar el enfriamiento líquido directo al chip con un intercambiador de calor de puerta trasera para mantener una solución de enfriamiento neutral. En este caso, el intercambiador de calor de puerta trasera evita que el calor excesivo escape hasta la sala. En el caso de una instalación enfriada por aire que busca agregar equipos de enfriamiento líquido sin modificar el sitio, contamos con diseños de líquido a aire. Esta misma estrategia puede implementarse en un solo rack, en una fila o a escala en una implementación de HPC grande. En el caso de diseños de racks múltiples, hemos incluido rPDU de alta densidad y busway de alto amperaje para distribuir la alimentación a cada rack.

Estas alternativas son compatibles con una gran variedad de opciones de eliminación del calor que pueden combinarse con el enfriamiento líquido. Esto permite una transición limpia y rentable hacia el enfriamiento líquido de alta densidad sin necesidad de interrumpir otras cargas de trabajo en la sala de datos.

Aunque muchas instalaciones no se encuentran diseñadas para sistemas de alta densidad, Vertiv cuenta con amplia experiencia al ayudar a los clientes a desarrollar planes de implementación para una transición fluida a la alta densidad para la IA y la HPC.


"¡Saludos! 🌟 Si la tecnología es tu pasión, has llegado al lugar indicado. Te invitamos a unirte a nuestros grupos en WhatsApp y Telegram para estar actualizado con las últimas tendencias tecnológicas:

 

  • WhatsApp: Únete y comparte conocimientos, preguntas y descubrimientos. Todos somos aprendices aquí. ¡Vamos juntos en este viaje de aprendizaje! 📱💡 Unirse

 

  • Telegram: Para una experiencia más amplia, únete a nuestro grupo donde compartimos noticias, consejos y trucos actualizados. ¡Sé parte de esta aventura del conocimiento! 🚀🔍 Unirse

 

La tecnología es lo que nos une e inspira. Para más información sobre nosotros o para agendar una cita:

 

  • Correo Electrónico: info@todoenuno.net.co
  • WhatsApp/Celular: +57 3218653750 / +57 3104507737
  • Agenda una Cita Aquí

 

¡Esperamos verte pronto! 🤝🔗"


TODO EN UNO.NET

Queremos darle a conocer nuestra EMPRESA creada en 1995. Todo En Uno.Net S.A.S es fundadora de la Organización Empresarial Todo En Uno.NET. Todo En Uno.Net S.A.S. es una empresa especializada en brindar CONSULTORIAS Y COMPAÑAMIENTO en el área tecnológica y administrativa basándonos en la última información tecnológica y de servicios del mercado, además prestamos una consultoría integral en varias áreas como son: CONSULTORIAS TECNOLOGICAS, CONSULTORIAS EMPRESARIALES, CONSULTORIA MERCADEO TECNOLÓGICO, CONSULTORIA EN TRATAMIENTO DE DATOS PERSONALES, Y con todos nuestros aliados en la organización TODO EN UNO.NET

Publicar un comentario

Esperamos sus comentarios

Artículo Anterior Artículo Siguiente