Documentation sur l'orchestration IA/ML sur GKE

Exécutez des charges de travail d'IA/de ML optimisées grâce aux fonctionnalités d'orchestration de plates-formes de Google Kubernetes Engine (GKE). Avec Google Kubernetes Engine (GKE), vous pouvez implémenter une plate-forme d'IA et de ML robuste et prête pour la production avec tous les avantages de Kubernetes géré et les fonctionnalités suivantes :

  • Orchestration de l'infrastructure compatible avec les GPU et les TPU pour les charges de travail d'entraînement et de diffusion à grande échelle
  • Intégration flexible aux frameworks de traitement des données et de calcul distribué
  • Prise en charge de plusieurs équipes sur la même infrastructure afin d'optimiser l'utilisation des ressources
Cette page présente les fonctionnalités d'IA/ML de GKE et explique comment exécuter des charges de travail d'IA/ML optimisées sur GKE avec des GPU, des TPU et des frameworks tels que Hugging Face TGI, vLLM et JetStream.
  • Accès à Gemini 2.0 Flash Thinking
  • Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
  • Aucuns frais automatiques, aucun engagement
Afficher les offres produit gratuites

Continuez à explorer le monde avec plus de 20 produits toujours gratuits

Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

formation
Formation et tutoriels

Découvrez comment déployer des LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec le framework de diffusion TPU optimal de Hugging Face.

Tutoriel Inférence IA/ML TPU

formation
Formation et tutoriels

Découvrez comment créer du stockage avec des instances Parallelstore entièrement gérées et y accéder en tant que volumes. Le pilote CSI est optimisé pour les charges de travail d'entraînement d'IA/ML impliquant des tailles de fichiers plus petites et des lectures aléatoires.

Tutoriel Chargement de données pour l'IA/ML

formation
Formation et tutoriels

Découvrez comment simplifier et accélérer le chargement des pondérations de modèles d'IA/ML sur GKE à l'aide d'Hyperdisk ML.

Tutoriel Chargement de données pour l'IA/ML

formation
Formation et tutoriels

Découvrez comment diffuser un LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec JetStream via PyTorch.

Tutoriel Inférence IA/ML TPU

formation
Formation et tutoriels

Découvrez les bonnes pratiques pour optimiser les performances d'inférence des LLM avec des GPU sur GKE à l'aide des frameworks de mise en service vLLM et d'inférence de génération de texte (TGI).

Tutoriel Inférence IA/ML GPU

formation
Formation et tutoriels

Découvrez quand utiliser l'opérateur GPU NVIDIA et comment l'activer sur GKE.

Tutoriel GPU

formation
Formation et tutoriels

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma à l'aide de JetStream à hôte unique.

Tutoriel TPU

formation
Formation et tutoriels

Découvrez comment affiner le LLM Gemma à l'aide de GPU sur GKE avec la bibliothèque Transformers de Hugging Face.

Tutoriel Inférence IA/ML GPU

formation
Formation et tutoriels

Découvrez comment déployer et diffuser un modèle Stable Diffusion sur GKE à l'aide de TPU, de Ray Serve et du module complémentaire Ray Operator.

Tutoriel Inférence IA/ML Ray TPU

formation
Formation et tutoriels

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (AHP) de GKE pour déployer le LLM Gemma avec le framework de diffusion d'interface de génération de texte (TGI) de Hugging Face.

Tutoriel GPU

formation
Formation et tutoriels

Découvrez comment exécuter une charge de travail PyTorch Megatron-LM basée sur des conteneurs sur A3 Mega.

Tutoriel Formation en IA/ML GPU

formation
Formation et tutoriels

Découvrez comment demander des accélérateurs matériels (GPU) dans vos charges de travail GKE Autopilot.

Tutoriel GPU

formation
Formation et tutoriels

Découvrez comment diffuser Llama 2 70B ou Falcon 40B à l'aide de plusieurs GPU NVIDIA L4 avec GKE.

Tutoriel Inférence IA/ML GPU

formation
Formation et tutoriels

Découvrez comment utiliser facilement Ray sur GKE en exécutant une charge de travail sur un cluster Ray.

Tutoriel Rayon

formation
Formation et tutoriels

Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.

Tutoriel Inférence IA/ML Ray GPU

formation
Formation et tutoriels

Découvrez comment orchestrer une charge de travail Jax sur plusieurs tranches de TPU sur GKE à l'aide de JobSet et Kueue.

Tutoriel TPU

formation
Formation et tutoriels

Découvrez comment observer les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA.

Tutoriel Observabilité de l'IA/ML GPU

formation
Formation et tutoriels

Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans GKE et stocker les prédictions dans Cloud Storage.

Tutoriel Formation en IA/ML GPU

formation
Formation et tutoriels

Cette vidéo explique comment GKE permet de résoudre les problèmes courants liés à l'entraînement de modèles d'IA volumineux à grande échelle, ainsi que les bonnes pratiques concernant l'entraînement et la diffusion de modèles de machine learning à grande échelle sur GKE.

Vidéo Entraînement IA/ML Inférence IA/ML

formation
Formation et tutoriels

Cet article de blog est un guide par étapes pour la création, l'exécution et la suppression d'un notebook Jupiter reposant sur Tensorflow.

Blog Entraînement IA/ML Inférence IA/ML GPU

formation
Formation et tutoriels

Ce tutoriel utilise Kueue pour vous montrer comment mettre en œuvre un système de mise en file d'attente de tâches et configurer le partage des ressources et des quotas de charges de travail entre différents espaces de noms sur GKE.

Tutoriel Travail par lot AI/ML

formation
Formation et tutoriels

Ce tutoriel explique comment intégrer une application de grand modèle de langage basée sur la génération avec récupération à des fichiers PDF que vous importez dans un bucket Cloud Storage.

Tutoriel Chargement de données pour l'IA/ML

formation
Formation et tutoriels

Ce tutoriel vous explique comment analyser de grands ensembles de données sur GKE en utilisant BigQuery pour le stockage et le traitement des données, Cloud Run pour la gestion des requêtes et un LLM Gemma pour l'analyse et les prédictions des données.

Tutoriel Chargement de données pour l'IA/ML

cas d'utilisation
Cas d'utilisation

Découvrez comment exploiter GKE et Ray pour prétraiter efficacement de grands ensembles de données à des fins de machine learning.

MLOps Formation Ray

cas d'utilisation
Cas d'utilisation

Découvrez comment accélérer les temps de chargement des données pour vos applications de machine learning sur Google Kubernetes Engine.

Inférence Hyperdisk ML Cloud Storage FUSE

cas d'utilisation
Cas d'utilisation

Découvrez comment optimiser vos coûts d'inférence GPU en ajustant l'Autoscaler horizontal de pods de GKE pour une efficacité maximale.

Inférence GPU HPA

cas d'utilisation
Cas d'utilisation

Découvrez comment déployer facilement des microservices NVIDIA NIM de pointe sur GKE et accélérer vos charges de travail d'IA.

IA NVIDIA NIM

cas d'utilisation
Cas d'utilisation

Découvrez comment Ray Operator sur GKE simplifie vos déploiements de production d'IA/ML, en améliorant les performances et l'évolutivité.

IA TPU Ray

cas d'utilisation
Cas d'utilisation

Découvrez comment maximiser le débit de diffusion des grands modèles de langage (LLM) pour les GPU sur GKE, y compris les décisions d'infrastructure et les optimisations du serveur de modèle.

LLM GPU NVIDIA

cas d'utilisation
Cas d'utilisation

Créer un moteur de recherche avec Google Cloud à l'aide de Vertex AI Agent Builder, de Vertex AI Search et de GKE

Agent de recherche Vertex AI

cas d'utilisation
Cas d'utilisation

Découvrez comment LiveX AI utilise GKE pour créer des agents d'IA qui améliorent la satisfaction client et réduisent les coûts.

IA générative NVIDIA GPU

cas d'utilisation
Cas d'utilisation

Architecture de référence pour l'exécution d'une application d'IA générative avec génération augmentée de récupération (RAG) à l'aide de GKE, Cloud SQL, Ray, Hugging Face et LangChain.

IA générative RAG Ray

cas d'utilisation
Cas d'utilisation

Découvrez comment IPRally utilise GKE et Ray pour créer une plate-forme de ML évolutive et efficace afin d'améliorer la vitesse et la précision des recherches de brevets.

IA Ray GPU

cas d'utilisation
Cas d'utilisation

Utilisez Gemma sur les GPU Cloud et Cloud TPU pour améliorer l'efficacité d'inférence et d'entraînement sur GKE.

IA Gemma Performance

cas d'utilisation
Cas d'utilisation

Utilisez les modèles ouverts Gemma de pointe pour créer des applications d'IA portables et personnalisables, puis les déployer sur GKE.

IA Gemma Performance

cas d'utilisation
Cas d'utilisation

Orchestrez des applications Ray dans GKE avec KubeRay et Kueue.

Kubeue Ray KubeRay

cas d'utilisation
Cas d'utilisation

Appliquez des insights de sécurité et des techniques de renforcement pour entraîner des charges de travail d'IA/de ML à l'aide de Ray sur GKE.

IA Ray Sécurité

cas d'utilisation
Cas d'utilisation

Sélectionnez la meilleure combinaison d'options de stockage pour les charges de travail d'IA et de ML sur Google Cloud.

IA ML Stockage

cas d'utilisation
Cas d'utilisation

Installez automatiquement les pilotes de GPU Nvidia dans GKE.

GPU NVIDIA Installation

cas d'utilisation
Cas d'utilisation

Entraînez des modèles d'IA générative à l'aide de GKE et du framework NVIDIA NeMo.

IA générative NVIDIA NeMo

cas d'utilisation
Cas d'utilisation

Améliorez l'évolutivité, la rentabilité, la tolérance aux pannes, l'isolation et la portabilité en utilisant GKE pour les charges de travail Ray.

IA Ray Évolutivité

cas d'utilisation
Cas d'utilisation

Bénéficiez d'une compatibilité GPU et de performances améliorées, ainsi que de tarifs réduits pour les charges de travail d'IA/de ML avec GKE Autopilot.

GPU Autopilot Performances

cas d'utilisation
Cas d'utilisation

Une startup adapte la sortie vidéo personnalisée à l'aide de GKE.

GPU Évolutivité Conteneurs

cas d'utilisation
Cas d'utilisation

Comment Ray transforme le développement de ML chez

ML Ray Conteneurs

cas d'utilisation
Cas d'utilisation

Ordaōs Bio, l'un des principaux accélérateurs d'IA pour la recherche et la découverte biomédicales, recherche des solutions à de nouvelles immunotherapies en oncologie et aux maladies inflammatoires chroniques.

Performances TPU Optimisation des coûts

cas d'utilisation
Cas d'utilisation

Découvrez comment Moloco, une start-up de la Silicon Valley, a exploité la puissance de GKE et de Tensor Flow Enterprise pour optimiser son infrastructure de machine learning (ML).

ML Évolutivité Optimisation des coûts

Exemple de code
Exemples de code

Consultez des exemples d'applications utilisées dans les tutoriels officiels sur les produits GKE.

Exemple de code
Exemples de code

Consultez des exemples expérimentaux pour exploiter GKE afin d'accélérer vos initiatives d'IA/ML.

Vidéos similaires