Documentation sur l'orchestration IA/ML sur GKE

Exécutez des charges de travail d'IA/de ML optimisées grâce aux fonctionnalités d'orchestration de plates-formes de Google Kubernetes Engine (GKE). Avec Google Kubernetes Engine (GKE), vous pouvez implémenter une plate-forme d'IA et de ML robuste et prête pour la production avec tous les avantages de Kubernetes géré et les fonctionnalités suivantes :

Orchestration de l'infrastructure compatible avec les GPU et les TPU pour les charges de travail d'entraînement et de diffusion à grande échelle
Intégration flexible aux frameworks de traitement des données et de calcul distribué
Prise en charge de plusieurs équipes sur la même infrastructure afin d'optimiser l'utilisation des ressources

Cette page présente les fonctionnalités d'IA/ML de GKE et explique comment exécuter des charges de travail d'IA/ML optimisées sur GKE avec des GPU, des TPU et des frameworks tels que Hugging Face TGI, vLLM et JetStream.

Essai gratuit

Démarrez votre démonstration de faisabilité avec 300 $ de crédits gratuits

Accès à Gemini 2.0 Flash Thinking
Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
Aucuns frais automatiques, aucun engagement

Afficher les offres produit gratuites

Continuez à explorer le monde avec plus de 20 produits toujours gratuits

Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

Diffuser des modèles ouverts à l'aide des fonctionnalités d'IA générative de GKE

Orchestrer les TPU et les GPU à grande échelle

Optimisation des coûts et orchestration des jobs

formation

Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU

Découvrez comment déployer des LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec le framework de diffusion TPU optimal de Hugging Face.

Tutoriel Inférence IA/ML TPU

formation

Créer et utiliser un volume basé sur une instance Parallelstore dans GKE

Découvrez comment créer du stockage avec des instances Parallelstore entièrement gérées et y accéder en tant que volumes. Le pilote CSI est optimisé pour les charges de travail d'entraînement d'IA/ML impliquant des tailles de fichiers plus petites et des lectures aléatoires.

Tutoriel Chargement de données pour l'IA/ML

formation

Accélération du chargement des données d'IA/ML avec Hyperdisk ML

Découvrez comment simplifier et accélérer le chargement des pondérations de modèles d'IA/ML sur GKE à l'aide d'Hyperdisk ML.

Tutoriel Chargement de données pour l'IA/ML

formation

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch

Découvrez comment diffuser un LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec JetStream via PyTorch.

Tutoriel Inférence IA/ML TPU

formation

Bonnes pratiques pour optimiser l'inférence LLM avec des GPU sur GKE

Découvrez les bonnes pratiques pour optimiser les performances d'inférence des LLM avec des GPU sur GKE à l'aide des frameworks de mise en service vLLM et d'inférence de génération de texte (TGI).

Tutoriel Inférence IA/ML GPU

formation

Gérer la pile de GPU avec l'opérateur GPU NVIDIA sur GKE

Découvrez quand utiliser l'opérateur GPU NVIDIA et comment l'activer sur GKE.

Tutoriel GPU

formation

Configurer l'autoscaling pour les charges de travail LLM sur les TPU

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma à l'aide de JetStream à hôte unique.

Tutoriel TPU

formation

Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU sur GKE

Découvrez comment affiner le LLM Gemma à l'aide de GPU sur GKE avec la bibliothèque Transformers de Hugging Face.

Tutoriel Inférence IA/ML GPU

formation

Déployer une application Ray Serve avec un modèle Stable Diffusion sur GKE avec des TPU

Découvrez comment déployer et diffuser un modèle Stable Diffusion sur GKE à l'aide de TPU, de Ray Serve et du module complémentaire Ray Operator.

Tutoriel Inférence IA/ML Ray TPU

formation

Configurer l'autoscaling pour les charges de travail LLM sur les GPU avec GKE

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma avec le framework de diffusion d'interface de génération de texte (TGI) de Hugging Face.

Tutoriel GPU

formation

Entraîner Llama2 avec Megatron-LM sur des machines virtuelles A3 Mega

Découvrez comment exécuter une charge de travail PyTorch Megatron-LM basée sur des conteneurs sur A3 Mega.

Tutoriel Formation en IA/ML GPU

formation

Déployer des charges de travail GPU dans Autopilot

Découvrez comment demander des accélérateurs matériels (GPU) dans vos charges de travail GKE Autopilot.

Tutoriel GPU

formation

Diffuser un grand modèle de langage avec plusieurs GPU dans GKE

Découvrez comment diffuser Llama 2 70B ou Falcon 40B à l'aide de plusieurs GPU NVIDIA L4 avec GKE.

Tutoriel Inférence IA/ML GPU

formation

Premiers pas avec Ray sur GKE

Découvrez comment utiliser facilement Ray sur GKE en exécutant une charge de travail sur un cluster Ray.

Tutoriel Rayon

formation

Diffuser un LLM sur des GPU L4 avec Ray

Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.

Tutoriel Inférence IA/ML Ray GPU

formation

Orchestrer des charges de travail TPU Multislice à l'aide de JobSet et de Kueue

Découvrez comment orchestrer une charge de travail Jax sur plusieurs tranches de TPU sur GKE à l'aide de JobSet et Kueue.

Tutoriel TPU

formation

Surveiller les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA

Découvrez comment observer les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA.

Tutoriel Observabilité de l'IA/ML GPU

formation

Guide de démarrage rapide : Entraîner un modèle avec des GPU sur des clusters GKE Standard

Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans GKE et stocker les prédictions dans Cloud Storage.

Tutoriel Formation en IA/ML GPU

formation

Exécuter des modèles de machine learning à grande échelle sur GKE

Cette vidéo explique comment GKE permet de résoudre les problèmes courants liés à l'entraînement de modèles d'IA volumineux à grande échelle, ainsi que les bonnes pratiques concernant l'entraînement et la diffusion de modèles de machine learning à grande échelle sur GKE.

Vidéo Entraînement IA/ML Inférence IA/ML

formation

TensorFlow sur GKE Autopilot avec l'accélération GPU

Cet article de blog est un guide par étapes pour la création, l'exécution et la suppression d'un notebook Jupiter reposant sur Tensorflow.

Blog Entraînement IA/ML Inférence IA/ML GPU

formation

Ce tutoriel utilise Kueue pour vous montrer comment mettre en œuvre un système de mise en file d'attente de tâches et configurer le partage des ressources et des quotas de charges de travail entre différents espaces de noms sur GKE.

Tutoriel Travail par lot AI/ML

formation

Créer un chatbot RAG avec GKE et Cloud Storage

Ce tutoriel explique comment intégrer une application de grand modèle de langage basée sur la génération avec récupération à des fichiers PDF que vous importez dans un bucket Cloud Storage.

Tutoriel Chargement de données pour l'IA/ML

formation

Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma

Ce tutoriel vous explique comment analyser de grands ensembles de données sur GKE en utilisant BigQuery pour le stockage et le traitement des données, Cloud Run pour la gestion des requêtes et un LLM Gemma pour l'analyse et les prédictions des données.

Tutoriel Chargement de données pour l'IA/ML

cas d'utilisation

Prétraitement distribué des données avec GKE et Ray: mise à l'échelle pour l'entreprise

Découvrez comment exploiter GKE et Ray pour prétraiter efficacement de grands ensembles de données à des fins de machine learning.

MLOps Formation Ray

cas d'utilisation

Bonnes pratiques de chargement de données pour l'inférence d'IA/ML sur GKE

Découvrez comment accélérer les temps de chargement des données pour vos applications de machine learning sur Google Kubernetes Engine.

Inférence Hyperdisk ML Cloud Storage FUSE

cas d'utilisation

Économisez sur les GPU: autoscaling plus intelligent pour vos charges de travail d'inférence GKE

Découvrez comment optimiser vos coûts d'inférence GPU en ajustant l'Autoscaler horizontal de pods de GKE pour une efficacité maximale.

Inférence GPU HPA

cas d'utilisation

Fournissez efficacement des modèles d'IA optimisés avec les microservices NVIDIA NIM sur GKE

Découvrez comment déployer facilement des microservices NVIDIA NIM de pointe sur GKE et accélérer vos charges de travail d'IA.

IA NVIDIA NIM

cas d'utilisation

Accélérez Ray en production avec le nouvel opérateur Ray sur GKE

Découvrez comment Ray Operator sur GKE simplifie vos déploiements de production d'IA/ML, en améliorant les performances et l'évolutivité.

IA TPU Ray

cas d'utilisation

Maximiser le débit de diffusion de votre LLM pour les GPU sur GKE : guide pratique

Découvrez comment maximiser le débit de diffusion des grands modèles de langage (LLM) pour les GPU sur GKE, y compris les décisions d'infrastructure et les optimisations du serveur de modèle.

LLM GPU NVIDIA

cas d'utilisation

Moteurs de recherche simplifiés: une approche low-code avec GKE et Vertex AI Agent Builder

Créer un moteur de recherche avec Google Cloud à l'aide de Vertex AI Agent Builder, de Vertex AI Search et de GKE

Agent de recherche Vertex AI

cas d'utilisation

LiveX AI réduit les coûts d'assistance client grâce à des agents d'IA entraînés et diffusés sur GKE et l'IA de NVIDIA

Découvrez comment LiveX AI utilise GKE pour créer des agents d'IA qui améliorent la satisfaction client et réduisent les coûts.

IA générative NVIDIA GPU

cas d'utilisation

Infrastructure pour une application d'IA générative exploitant le RAG, à l'aide de GKE

Architecture de référence pour l'exécution d'une application d'IA générative avec génération augmentée de récupération (RAG) à l'aide de GKE, Cloud SQL, Ray, Hugging Face et LangChain.

IA générative RAG Ray

cas d'utilisation

Innovation dans la recherche de brevets : comment IPRally exploite l'IA avec GKE et Ray

Découvrez comment IPRally utilise GKE et Ray pour créer une plate-forme de ML évolutive et efficace afin d'améliorer la vitesse et la précision des recherches de brevets.

IA Ray GPU

cas d'utilisation

Présentation détaillée des performances de Gemma sur Google Cloud

Utilisez Gemma sur les GPU Cloud et Cloud TPU pour améliorer l'efficacité d'inférence et d'entraînement sur GKE.

IA Gemma Performance

cas d'utilisation

Présentation détaillée de Gemma sur GKE : de nouvelles innovations pour diffuser des modèles d'IA générative ouverts.

Utilisez les modèles ouverts Gemma de pointe pour créer des applications d'IA portables et personnalisables, puis les déployer sur GKE.

IA Gemma Performance

cas d'utilisation

Planification avancée pour l'IA et le ML avec Ray et Kueue

Orchestrez des applications Ray dans GKE avec KubeRay et Kueue.

Kubeue Ray KubeRay

cas d'utilisation

Sécuriser Ray sur Google Kubernetes Engine

Appliquez des insights de sécurité et des techniques de renforcement pour entraîner des charges de travail d'IA/de ML à l'aide de Ray sur GKE.

IA Ray Sécurité

cas d'utilisation

Choisir son stockage pour les charges de travail d'IA et de ML dans Google Cloud

Sélectionnez la meilleure combinaison d'options de stockage pour les charges de travail d'IA et de ML sur Google Cloud.

IA ML Stockage

cas d'utilisation

L'installation automatique des pilotes simplifie l'utilisation de GPU NVIDIA dans GKE

Installez automatiquement les pilotes de GPU Nvidia dans GKE.

GPU NVIDIA Installation

cas d'utilisation

Accélérez votre transition vers l'IA générative avec le framework NVIDIA NeMo sur GKEE

Entraînez des modèles d'IA générative à l'aide de GKE et du framework NVIDIA NeMo.

IA générative NVIDIA NeMo

cas d'utilisation

Pourquoi utiliser GKE pour vos charges de travail Ray AI ?

Améliorez l'évolutivité, la rentabilité, la tolérance aux pannes, l'isolation et la portabilité en utilisant GKE pour les charges de travail Ray.

IA Ray Évolutivité

cas d'utilisation

Exécution de l'IA sur un service GKE entièrement géré, désormais avec de nouvelles options de calcul, de nouveaux tarifs et de nouvelles réservations de ressources

Bénéficiez d'une compatibilité GPU et de performances améliorées, ainsi que de tarifs réduits pour les charges de travail d'IA/de ML avec GKE Autopilot.

GPU Autopilot Performances

cas d'utilisation

Comment SEEN a multiplié ses résultats par 89 et réduit ses coûts de GPU de 66 % grâce à GKE

Une startup adapte la sortie vidéo personnalisée à l'aide de GKE.

GPU Évolutivité Conteneurs

cas d'utilisation

Comment libère le potentiel d'innovation en matière de ML avec Ray et GKE

Comment Ray transforme le développement de ML chez

ML Ray Conteneurs

cas d'utilisation

Comment Ordaōs Bio exploite l'IA générative sur GKE

Ordaōs Bio, l'un des principaux accélérateurs d'IA pour la recherche et la découverte biomédicales, recherche des solutions à de nouvelles immunotherapies en oncologie et aux maladies inflammatoires chroniques.

Performances TPU Optimisation des coûts

cas d'utilisation

GKE pour une start-up en pleine croissance grâce au ML

Découvrez comment Moloco, une start-up de la Silicon Valley, a exploité la puissance de GKE et de Tensor Flow Enterprise pour optimiser son infrastructure de machine learning (ML).

ML Évolutivité Optimisation des coûts

Exemple de code

Exemples Google Kubernetes Engine (GKE)

Consultez des exemples d'applications utilisées dans les tutoriels officiels sur les produits GKE.

Ouvrir

Exemple de code

Exemples GKE AI Labs

Consultez des exemples expérimentaux pour exploiter GKE afin d'accélérer vos initiatives d'IA/ML.

Ouvrir

Documentation sur l'orchestration IA/ML sur GKE

Démarrez votre démonstration de faisabilité avec 300 $ de crédits gratuits

Continuez à explorer le monde avec plus de 20 produits toujours gratuits

Diffuser des modèles ouverts à l'aide des fonctionnalités d'IA générative de GKE

Orchestrer les TPU et les GPU à grande échelle

Optimisation des coûts et orchestration des jobs

Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU

Créer et utiliser un volume basé sur une instance Parallelstore dans GKE

Accélération du chargement des données d'IA/ML avec Hyperdisk ML

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch

Bonnes pratiques pour optimiser l'inférence LLM avec des GPU sur GKE

Gérer la pile de GPU avec l'opérateur GPU NVIDIA sur GKE

Configurer l'autoscaling pour les charges de travail LLM sur les TPU

Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU sur GKE

Déployer une application Ray Serve avec un modèle Stable Diffusion sur GKE avec des TPU

Configurer l'autoscaling pour les charges de travail LLM sur les GPU avec GKE

Entraîner Llama2 avec Megatron-LM sur des machines virtuelles A3 Mega

Déployer des charges de travail GPU dans Autopilot

Diffuser un grand modèle de langage avec plusieurs GPU dans GKE

Premiers pas avec Ray sur GKE

Diffuser un LLM sur des GPU L4 avec Ray

Orchestrer des charges de travail TPU Multislice à l'aide de JobSet et de Kueue

Surveiller les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA

Guide de démarrage rapide : Entraîner un modèle avec des GPU sur des clusters GKE Standard

Exécuter des modèles de machine learning à grande échelle sur GKE

TensorFlow sur GKE Autopilot avec l'accélération GPU

Implémenter un système de mise en file d'attente de jobs avec un partage de quota entre espaces de noms dans GKE

Créer un chatbot RAG avec GKE et Cloud Storage

Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma

Prétraitement distribué des données avec GKE et Ray: mise à l'échelle pour l'entreprise

Bonnes pratiques de chargement de données pour l'inférence d'IA/ML sur GKE

Économisez sur les GPU: autoscaling plus intelligent pour vos charges de travail d'inférence GKE

Fournissez efficacement des modèles d'IA optimisés avec les microservices NVIDIA NIM sur GKE

Accélérez Ray en production avec le nouvel opérateur Ray sur GKE

Maximiser le débit de diffusion de votre LLM pour les GPU sur GKE : guide pratique

Moteurs de recherche simplifiés: une approche low-code avec GKE et Vertex AI Agent Builder

LiveX AI réduit les coûts d'assistance client grâce à des agents d'IA entraînés et diffusés sur GKE et l'IA de NVIDIA

Infrastructure pour une application d'IA générative exploitant le RAG, à l'aide de GKE

Innovation dans la recherche de brevets : comment IPRally exploite l'IA avec GKE et Ray

Présentation détaillée des performances de Gemma sur Google Cloud

Présentation détaillée de Gemma sur GKE : de nouvelles innovations pour diffuser des modèles d'IA générative ouverts.

Planification avancée pour l'IA et le ML avec Ray et Kueue

Sécuriser Ray sur Google Kubernetes Engine

Choisir son stockage pour les charges de travail d'IA et de ML dans Google Cloud

L'installation automatique des pilotes simplifie l'utilisation de GPU NVIDIA dans GKE

Accélérez votre transition vers l'IA générative avec le framework NVIDIA NeMo sur GKEE

Pourquoi utiliser GKE pour vos charges de travail Ray AI ?

Exécution de l'IA sur un service GKE entièrement géré, désormais avec de nouvelles options de calcul, de nouveaux tarifs et de nouvelles réservations de ressources

Comment SEEN a multiplié ses résultats par 89 et réduit ses coûts de GPU de 66 % grâce à GKE

Comment libère le potentiel d'innovation en matière de ML avec Ray et GKE

Comment Ordaōs Bio exploite l'IA générative sur GKE

GKE pour une start-up en pleine croissance grâce au ML

Exemples Google Kubernetes Engine (GKE)

Exemples GKE AI Labs

Vidéos similaires