Découvrez L'Art De L'Édition
L'ordinateur

Cette fois, le réseau est l’ordinateur

Nvidia n’en parle pas autant, mais une grande partie de son travail se concentre désormais sur la plomberie.

Lors de sa conférence des développeurs d’IA d’automne (GTC), le fabricant de puces Nvidia entretenait toujours l’idée qu’il finirait par acquérir le concepteur de processeurs Arm. Lors de l’événement du printemps, ce plan est à peine visible dans le rétroviseur.

L’ordinateur Cambridge-1 que la société a annoncé qu’elle construirait au Royaume-Uni dans le cadre d’une coopération entre Nvidia et Arm se poursuit, mais il semble maintenant être un prototype d’une machine beaucoup plus grande et beaucoup plus axée sur Nvidia qu’elle prévoit d’utiliser comme un modèle. pour ce que le fondateur et PDG Jensen Huang appelle une « usine d’IA ».

Bien que le discours d’ouverture de Huang au Spring GTC cette semaine (21 mars 2022) ait porté sur le remplacement de l’architecture de l’unité de traitement graphique (GPU) Ampere, qui évolue maintenant pour fournir une accélération de l’IA pour les robots et autres systèmes embarqués, il repose sur sommet d’une stratégie plus large. Vous pouvez lire cet événement de deux manières. Celui qui renforce l’idée que Nvidia est une société informatique qui expédie désormais des puces à d’autres sociétés informatiques, mais qui a pris en charge la conception globale de la machine de manière beaucoup plus explicite. Alternativement, vous pourriez le voir comme une rupture avec les approches traditionnelles de l’architecture informatique au point de traiter le rôle d’Arm comme un spectacle secondaire : qui a besoin d’Arm ? La vraie action n’est pas près du processeur.

Même pour le module multipuce Grace, nommé d’après la pionnière de l’informatique Grace Hopper, l’attraction principale n’est pas tant l’unité centrale de traitement (CPU) et le GPU Hopper H100 qui peuvent être intégrés lors de l’expédition, éventuellement dans plus d’un anus. C’est ainsi qu’ils sont reliés les uns aux autres. En attendant, la société prévoit d’expédier de nombreux GPU Hopper H100 qui seront inclus dans certains des packages Grace, et beaucoup d’entre eux se retrouveront sur la machine Eos. Il utilisera une architecture similaire au Cambridge-1, une conception modulaire basée sur des modules DGX qui assemblent plusieurs cartes PCIe et commutateurs réseau dans un rack de centre de données standard.

« Nous nous attendons à ce qu’Eos soit l’ordinateur d’IA le plus rapide au monde », a déclaré Huang, ajoutant qu’il serait utilisé comme modèle de démonstration et conception de référence pour que les clients puissent le transférer vers leurs propres centres de données. « Nous soutenons Eos maintenant et nous serons en ligne dans quelques mois.

« Hopper changera également la donne pour les mainframes », a-t-il ajouté, notant comment les GPU géreront les interconnexions différemment.

Pour les systèmes qui doivent répartir le travail de l’IA sur plus d’une puce GPU, malgré ses vitesses impressionnantes sur papier, PCI Express, même dans sa cinquième génération, est devenu un goulot d’étranglement du point de vue des performances. Le problème est que, dans la plupart des systèmes actuels, il ne s’agit en réalité que d’un relais pour le transfert de données vers un réseau Ethernet. Comme les fournisseurs utilisant des FPGA pour effectuer une accélération de l’IA, Hopper élimine le besoin d’utiliser PCI Express pour ces transferts. Au lieu de cela, les GPU communiquent directement via Ethernet, et le contrôleur Ethernet, à son tour, peut simplement transférer des données dans et hors de la mémoire appartenant au GPU sans compter sur un processeur pour les copier laborieusement.

Lors d’une session ultérieure consacrée au GPU Hopper lui-même, l’architecte principal du GPU, Michael Andersch, a déclaré que le département d’ingénierie de l’entreprise avait réalisé qu ‘«un changement fondamental dans la façon dont nous construisons nos machines était nécessaire. Nous devions innover non seulement au sein du GPU, mais dans l’ensemble du centre de données. »

Ce constat n’est pas nouveau. Lorsque HP Enterprise a développé le concept de son serveur Moonshot, il était clair qu’une grande partie du travail nécessaire serait de savoir comment les différents modules de processeur, d’accélérateur et de mémoire se connecteraient les uns aux autres et qu’il devenait important d’arrêter le mouvement des données. la machine inutilement. Mettre fin à la migration des données n’était pas seulement bon pour les performances, mais aussi pour la consommation d’énergie. Les travaux à l’Université de Stanford du professeur Bill Dally, qui est maintenant scientifique en chef chez Nvidia, ont montré que la majeure partie de l’énergie qui entre dans le calcul typique sur les architectures d’aujourd’hui se résume à le déplacer dans et hors de la mémoire.

Dans plusieurs applications d’IA majeures où le modèle est trop volumineux pour s’adapter à une combinaison de CPU et de GPU, les données doivent être copiées sur toutes les machines coopérantes et les mises à jour doivent être partagées entre elles – une topologie globale. Dans d’autres, les données sont partagées mais réduites afin qu’une machine soumette éventuellement une mise à jour à la fin du processus, qui est ensuite copiée sur toutes les machines pour être incorporée dans leur propre tranche du modèle. Étant donné que le travail doit être effectué sur le CPU ou le GPU sur la plupart des architectures actuelles, cela implique beaucoup de trafic. Ce que Nvidia prévoit de faire avec la génération Hopper et les cartouches DGX qui intègrent la puce à transistors de 80 milliards, c’est de déplacer une partie du traitement vers le réseau.

Ce traitement en réseau résulte de l’acquisition en 2019 du spécialiste israélo-américain Mellanox. La société a développé du silicium pour les commutateurs réseau qui incluent leurs propres processeurs pour gérer les paquets de données lorsqu’ils passent d’un port à un autre. Cela a fait son chemin dans les appareils Bluefield, qui, avec les appareils de fournisseurs comme Fungible, représentent une autre catégorie de processeurs à côté des CPU et des GPU. Il s’agit de l’unité de traitement de données (DPU), bien que l’unité de traitement de réseau aurait pu être un terme plus clair.

Pour l’algorithme de réduction complète, les DPU sur les cartes réseau et les commutateurs exécutent un protocole conçu par Mellanox, le Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) développé à l’origine pour les commutateurs Infiniband. Cela permet aux ordinateurs connectés aux commutateurs de demander au réseau lui-même d’effectuer une partie de leur traitement, y compris les opérations de réduction des données. Le résultat est qu’une grande partie des données n’a jamais à atteindre toutes les autres cartes GPU. Un seul moteur exécutant SHARP collecte ce dont il a besoin et diffuse la réponse à toutes les machines qui ont demandé le résultat. Une prise en charge multidiffusion similaire signifie que les processeurs n’ont pas à envoyer explicitement des données partagées à chaque machine d’une liste, ils demandent simplement au commutateur de faire le travail.

Il y a environ 30 ans, Sun Microsystems a inventé le slogan « le réseau est l’ordinateur ». À l’époque, c’était plutôt une fouille chez IBM où, pour beaucoup de systèmes d’entreprise, vous aviez un gros ordinateur servant un tas de terminaux stupides. La proposition de Sun était basée sur le modèle client-serveur qui mettait beaucoup plus l’accent sur le fait de faire autant de travail que possible sur des machines distantes, bien que dans une certaine mesure, elle ignorait la façon dont de nombreux mainframes avaient leurs propres processeurs d’E/S pour éviter que le processeur central n’ait à faire tout. Cependant, même dans la conception de Sun, le réseau lui-même était encore assez stupide. Cette fois, le réseau est vraiment, sinon l’ordinateur lui-même, alors une partie intégrante de celui-ci.

Inscrivez-vous aux e-mails E&T News pour recevoir chaque jour de superbes histoires comme celle-ci dans votre boîte de réception.