Documentation sur l'orchestration IA/ML sur GKE
Exécutez des charges de travail d'IA/de ML optimisées grâce aux fonctionnalités d'orchestration de plates-formes de Google Kubernetes Engine (GKE). Avec Google Kubernetes Engine (GKE), vous pouvez implémenter une plate-forme d'IA et de ML robuste et prête pour la production avec tous les avantages de Kubernetes géré et les fonctionnalités suivantes :
- Orchestration de l'infrastructure compatible avec les GPU et les TPU pour les charges de travail d'entraînement et de diffusion à grande échelle
- Intégration flexible aux frameworks de traitement des données et de calcul distribué
- Prise en charge de plusieurs équipes sur la même infrastructure afin d'optimiser l'utilisation des ressources
Démarrez votre démonstration de faisabilité avec 300 $ de crédits gratuits
- Accès à Gemini 2.0 Flash Thinking
- Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
- Aucuns frais automatiques, aucun engagement
Continuez à explorer le monde avec plus de 20 produits toujours gratuits
Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.
Diffuser des modèles ouverts à l'aide des fonctionnalités d'IA générative de GKE
- Nouveau !
- Nouveau !
- Nouveau !
- Tutoriel
- Tutoriel
- Tutoriel
Orchestrer les TPU et les GPU à grande échelle
- Nouveau !
- Nouveau !
- Vidéo
- Vidéo
- Vidéo
- Blog
Optimisation des coûts et orchestration des jobs
- Nouveau !
- Bonne pratique
- Blog
- Blog
- Bonne pratique
- Bonne pratique
- Bonne pratique
Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU
Découvrez comment déployer des LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec le framework de diffusion TPU optimal de Hugging Face.
Créer et utiliser un volume basé sur une instance Parallelstore dans GKE
Découvrez comment créer du stockage avec des instances Parallelstore entièrement gérées et y accéder en tant que volumes. Le pilote CSI est optimisé pour les charges de travail d'entraînement d'IA/ML impliquant des tailles de fichiers plus petites et des lectures aléatoires.
Accélération du chargement des données d'IA/ML avec Hyperdisk ML
Découvrez comment simplifier et accélérer le chargement des pondérations de modèles d'IA/ML sur GKE à l'aide d'Hyperdisk ML.
Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch
Découvrez comment diffuser un LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec JetStream via PyTorch.
Bonnes pratiques pour optimiser l'inférence LLM avec des GPU sur GKE
Découvrez les bonnes pratiques pour optimiser les performances d'inférence des LLM avec des GPU sur GKE à l'aide des frameworks de mise en service vLLM et d'inférence de génération de texte (TGI).
Gérer la pile de GPU avec l'opérateur GPU NVIDIA sur GKE
Découvrez quand utiliser l'opérateur GPU NVIDIA et comment l'activer sur GKE.
Configurer l'autoscaling pour les charges de travail LLM sur les TPU
Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma à l'aide de JetStream à hôte unique.
Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU sur GKE
Découvrez comment affiner le LLM Gemma à l'aide de GPU sur GKE avec la bibliothèque Transformers de Hugging Face.
Déployer une application Ray Serve avec un modèle Stable Diffusion sur GKE avec des TPU
Découvrez comment déployer et diffuser un modèle Stable Diffusion sur GKE à l'aide de TPU, de Ray Serve et du module complémentaire Ray Operator.
Configurer l'autoscaling pour les charges de travail LLM sur les GPU avec GKE
Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma avec le framework de diffusion d'interface de génération de texte (TGI) de Hugging Face.
Entraîner Llama2 avec Megatron-LM sur des machines virtuelles A3 Mega
Découvrez comment exécuter une charge de travail PyTorch Megatron-LM basée sur des conteneurs sur A3 Mega.
Déployer des charges de travail GPU dans Autopilot
Découvrez comment demander des accélérateurs matériels (GPU) dans vos charges de travail GKE Autopilot.
Diffuser un grand modèle de langage avec plusieurs GPU dans GKE
Découvrez comment diffuser Llama 2 70B ou Falcon 40B à l'aide de plusieurs GPU NVIDIA L4 avec GKE.
Premiers pas avec Ray sur GKE
Découvrez comment utiliser facilement Ray sur GKE en exécutant une charge de travail sur un cluster Ray.
Diffuser un LLM sur des GPU L4 avec Ray
Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.
Orchestrer des charges de travail TPU Multislice à l'aide de JobSet et de Kueue
Découvrez comment orchestrer une charge de travail Jax sur plusieurs tranches de TPU sur GKE à l'aide de JobSet et Kueue.
Surveiller les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA
Découvrez comment observer les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA.
Guide de démarrage rapide : Entraîner un modèle avec des GPU sur des clusters GKE Standard
Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans GKE et stocker les prédictions dans Cloud Storage.
Exécuter des modèles de machine learning à grande échelle sur GKE
Cette vidéo explique comment GKE permet de résoudre les problèmes courants liés à l'entraînement de modèles d'IA volumineux à grande échelle, ainsi que les bonnes pratiques concernant l'entraînement et la diffusion de modèles de machine learning à grande échelle sur GKE.
TensorFlow sur GKE Autopilot avec l'accélération GPU
Cet article de blog est un guide par étapes pour la création, l'exécution et la suppression d'un notebook Jupiter reposant sur Tensorflow.
Implémenter un système de mise en file d'attente de jobs avec un partage de quota entre espaces de noms dans GKE
Ce tutoriel utilise Kueue pour vous montrer comment mettre en œuvre un système de mise en file d'attente de tâches et configurer le partage des ressources et des quotas de charges de travail entre différents espaces de noms sur GKE.
Créer un chatbot RAG avec GKE et Cloud Storage
Ce tutoriel explique comment intégrer une application de grand modèle de langage basée sur la génération avec récupération à des fichiers PDF que vous importez dans un bucket Cloud Storage.
Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma
Ce tutoriel vous explique comment analyser de grands ensembles de données sur GKE en utilisant BigQuery pour le stockage et le traitement des données, Cloud Run pour la gestion des requêtes et un LLM Gemma pour l'analyse et les prédictions des données.
Prétraitement distribué des données avec GKE et Ray: mise à l'échelle pour l'entreprise
Découvrez comment exploiter GKE et Ray pour prétraiter efficacement de grands ensembles de données à des fins de machine learning.
Bonnes pratiques de chargement de données pour l'inférence d'IA/ML sur GKE
Découvrez comment accélérer les temps de chargement des données pour vos applications de machine learning sur Google Kubernetes Engine.
Économisez sur les GPU: autoscaling plus intelligent pour vos charges de travail d'inférence GKE
Découvrez comment optimiser vos coûts d'inférence GPU en ajustant l'Autoscaler horizontal de pods de GKE pour une efficacité maximale.
Fournissez efficacement des modèles d'IA optimisés avec les microservices NVIDIA NIM sur GKE
Découvrez comment déployer facilement des microservices NVIDIA NIM de pointe sur GKE et accélérer vos charges de travail d'IA.
Accélérez Ray en production avec le nouvel opérateur Ray sur GKE
Découvrez comment Ray Operator sur GKE simplifie vos déploiements de production d'IA/ML, en améliorant les performances et l'évolutivité.
Maximiser le débit de diffusion de votre LLM pour les GPU sur GKE : guide pratique
Découvrez comment maximiser le débit de diffusion des grands modèles de langage (LLM) pour les GPU sur GKE, y compris les décisions d'infrastructure et les optimisations du serveur de modèle.
Moteurs de recherche simplifiés: une approche low-code avec GKE et Vertex AI Agent Builder
Créer un moteur de recherche avec Google Cloud à l'aide de Vertex AI Agent Builder, de Vertex AI Search et de GKE
LiveX AI réduit les coûts d'assistance client grâce à des agents d'IA entraînés et diffusés sur GKE et l'IA de NVIDIA
Découvrez comment LiveX AI utilise GKE pour créer des agents d'IA qui améliorent la satisfaction client et réduisent les coûts.
Infrastructure pour une application d'IA générative exploitant le RAG, à l'aide de GKE
Architecture de référence pour l'exécution d'une application d'IA générative avec génération augmentée de récupération (RAG) à l'aide de GKE, Cloud SQL, Ray, Hugging Face et LangChain.
Innovation dans la recherche de brevets : comment IPRally exploite l'IA avec GKE et Ray
Découvrez comment IPRally utilise GKE et Ray pour créer une plate-forme de ML évolutive et efficace afin d'améliorer la vitesse et la précision des recherches de brevets.
Présentation détaillée des performances de Gemma sur Google Cloud
Utilisez Gemma sur les GPU Cloud et Cloud TPU pour améliorer l'efficacité d'inférence et d'entraînement sur GKE.
Présentation détaillée de Gemma sur GKE : de nouvelles innovations pour diffuser des modèles d'IA générative ouverts.
Utilisez les modèles ouverts Gemma de pointe pour créer des applications d'IA portables et personnalisables, puis les déployer sur GKE.
Planification avancée pour l'IA et le ML avec Ray et Kueue
Orchestrez des applications Ray dans GKE avec KubeRay et Kueue.
Sécuriser Ray sur Google Kubernetes Engine
Appliquez des insights de sécurité et des techniques de renforcement pour entraîner des charges de travail d'IA/de ML à l'aide de Ray sur GKE.
Choisir son stockage pour les charges de travail d'IA et de ML dans Google Cloud
Sélectionnez la meilleure combinaison d'options de stockage pour les charges de travail d'IA et de ML sur Google Cloud.
L'installation automatique des pilotes simplifie l'utilisation de GPU NVIDIA dans GKE
Installez automatiquement les pilotes de GPU Nvidia dans GKE.
Accélérez votre transition vers l'IA générative avec le framework NVIDIA NeMo sur GKEE
Entraînez des modèles d'IA générative à l'aide de GKE et du framework NVIDIA NeMo.
Pourquoi utiliser GKE pour vos charges de travail Ray AI ?
Améliorez l'évolutivité, la rentabilité, la tolérance aux pannes, l'isolation et la portabilité en utilisant GKE pour les charges de travail Ray.
Exécution de l'IA sur un service GKE entièrement géré, désormais avec de nouvelles options de calcul, de nouveaux tarifs et de nouvelles réservations de ressources
Bénéficiez d'une compatibilité GPU et de performances améliorées, ainsi que de tarifs réduits pour les charges de travail d'IA/de ML avec GKE Autopilot.
Comment SEEN a multiplié ses résultats par 89 et réduit ses coûts de GPU de 66 % grâce à GKE
Une startup adapte la sortie vidéo personnalisée à l'aide de GKE.
Comment libère le potentiel d'innovation en matière de ML avec Ray et GKE
Comment Ray transforme le développement de ML chez
Comment Ordaōs Bio exploite l'IA générative sur GKE
Ordaōs Bio, l'un des principaux accélérateurs d'IA pour la recherche et la découverte biomédicales, recherche des solutions à de nouvelles immunotherapies en oncologie et aux maladies inflammatoires chroniques.
GKE pour une start-up en pleine croissance grâce au ML
Découvrez comment Moloco, une start-up de la Silicon Valley, a exploité la puissance de GKE et de Tensor Flow Enterprise pour optimiser son infrastructure de machine learning (ML).
Exemples Google Kubernetes Engine (GKE)
Consultez des exemples d'applications utilisées dans les tutoriels officiels sur les produits GKE.
Exemples GKE AI Labs
Consultez des exemples expérimentaux pour exploiter GKE afin d'accélérer vos initiatives d'IA/ML.