Google Cloud dévoile Virgo Network pour alimenter les centres de données IA de nouvelle génération

Selon Google, la prochaine décennie de l’IA nécessitera un changement fondamental dans l’infrastructure physique du cloud, en particulier dans les réseaux.

Google Cloud a introduit une nouvelle architecture de réseau de centre de données de l’ère de l’IA, conçue pour prendre en charge l’échelle et la complexité croissantes des charges de travail modernes d’apprentissage automatique. La société affirme que les conceptions de réseaux traditionnelles atteignent leurs limites alors que les modèles fondamentaux d’IA continuent de croître de façon exponentielle en taille et en demande de calcul.

Selon Google, la prochaine décennie de l’IA nécessitera un changement fondamental dans l’infrastructure physique du cloud, en particulier dans les réseaux. Pour résoudre ce problème, la société a développé Virgo Network, une structure de centre de données d'IA à grande échelle construite sur une philosophie de « campus en tant qu'ordinateur » et constituant un élément central de son infrastructure d'hyperordinateur d'IA.

Google a expliqué que les architectures de réseau existantes ont du mal à répondre à quatre contraintes clés des charges de travail d'IA modernes : des exigences à grande échelle qui s'étendent sur plusieurs centres de données, des demandes de bande passante croissantes entraînées par la formation de modèles, des rafales de trafic synchronisées qui mettent à rude épreuve les tampons du réseau et des exigences strictes de faible latence pour l'inférence en temps réel.

La société a déclaré que « même un seul nœud « retardataire » peut limiter les performances de l'ensemble du cluster », soulignant l'importance d'un comportement réseau déterministe et résilient dans les environnements de formation à l'IA.

Pour surmonter ces défis, Google passe d'un réseau à usage général à une architecture multicouche spécialisée qui sépare les charges de travail en domaines distincts. Ceux-ci incluent une interconnexion évolutive pour une communication d'accélérateur étroitement couplée, une structure évolutive est-ouest pour la formation distribuée entre les pods et un réseau frontal Jupiter nord-sud pour le stockage et l'accès au calcul dans les centres de données.

Cette structure découplée est conçue pour permettre des mises à niveau indépendantes sur toutes les couches du réseau, réduire les goulots d'étranglement et améliorer la résilience globale du système tout en prenant en charge des cycles d'innovation plus rapides.

Au centre de cette architecture se trouve Virgo Network, une structure plate à deux couches non bloquante qui connecte jusqu'à 134 000 puces avec une bande passante bissectionnelle de 47 pétabits par seconde. Le système est conçu pour fournir une bande passante jusqu'à quatre fois supérieure par accélérateur par rapport aux générations précédentes tout en réduisant la latence d'environ 40 %.

Google a déclaré que la conception permet des performances plus prévisibles pour les charges de travail de formation et d'inférence, en particulier pour les systèmes d'IA distribués à grande échelle.

L'entreprise a également mis l'accent sur la fiabilité comme principe de conception fondamental. Compte tenu de l’ampleur des clusters d’IA modernes, les pannes matérielles sont inévitables, ce qui rend indispensable l’isolation des pannes et une récupération rapide. Virgo Network intègre des plans de commutation indépendants pour empêcher des pannes localisées d'affecter des clusters entiers.

En outre, Google a souligné les progrès en matière d'observabilité et d'automatisation, notamment la télémétrie inférieure à la milliseconde, la détection des congestions et l'identification automatisée des goulots d'étranglement en matière de performances, tels que les « retardataires » et les « blocages » du système. Ces capacités sont conçues pour améliorer le temps moyen de récupération et maximiser l’efficacité de la formation.

En fin de compte, Google a décrit Virgo Network comme la couche fondamentale de sa stratégie d'hyperordinateur IA, permettant un calcul unifié sur des systèmes d'IA à grande échelle. La société a déclaré que l'architecture est destinée à offrir l'évolutivité, le contrôle de latence et la résilience requis pour l'ère émergente de l'IA agentique.