Ce cours apporte aux professionnels du machine learning les techniques, les bonnes pratiques et les outils essentiels pour évaluer les modèles d'IA prédictive et générative. L'évaluation des modèles est primordiale pour s'assurer que les systèmes de ML fournissent des résultats fiables, précis et de haut niveau en production. Les participants acquerront une connaissance approfondie de diverses métriques et méthodologies d'évaluation, ainsi que de leur application appropriée dans différents types de modèles et tâches. Le cours mettra l'accent sur les défis uniques posés par les modèles d'IA générative et proposera des stratégies pour les relever efficacement. Grâce à la plate-forme Vertex AI de Google Cloud, les participants apprendront à implémenter des processus d'évaluation rigoureux pour la sélection, l'optimisation et la surveillance continue des modèles.
This course delves into the complexities of assessing the quality of large language model outputs. It examines the challenges enterprises face due to the subjective and sometimes incorrect nature of LLM responses, including hallucinations and inconsistent results. The course introduces various evaluation metrics for different tasks like classification, text generation, and question answering, such as Accuracy, Precision, Recall, F1 score, ROUGE, BLEU, and Exact Match. It also explores evaluation methods offered by Vertex AI LLM Evaluation Services, including computation-based, autorater, and human evaluation, providing insights into their application and benefits. Finally, the module covers how to unit test LLM applications within Vertex AI.
Model Garden is a model library that helps you discover, test, and deploy models from Google and Google partners. Learn how to explore the available models and select the right ones for your use case. And how to deploy and interact with Model Garden models through the Google Cloud console and APIs.