このコースでは、ML の実務担当者に、生成 AI モデルと予測 AI モデルの両方を評価するための重要なツール、手法、ベスト プラクティスを身につけていただきます。モデル評価は、ML システムが本番環境で信頼性が高く、正確で、高性能な結果を確実に提供するための重要な分野です。 参加者は、さまざまな評価指標、方法論のほか、さまざまなモデルタイプやタスクにおけるそれらの適切な適用について理解を深めます。このコースでは、生成 AI モデルによってもたらされる固有の課題に重点を置き、それらの課題に効果的に取り組むための戦略を提供します。参加者は、Google Cloud の Vertex AI プラットフォームを活用して、モデルの選択、最適化、継続的なモニタリングのための堅牢な評価プロセスを実装する方法を学びます。
This course delves into the complexities of assessing the quality of large language model outputs. It examines the challenges enterprises face due to the subjective and sometimes incorrect nature of LLM responses, including hallucinations and inconsistent results. The course introduces various evaluation metrics for different tasks like classification, text generation, and question answering, such as Accuracy, Precision, Recall, F1 score, ROUGE, BLEU, and Exact Match. It also explores evaluation methods offered by Vertex AI LLM Evaluation Services, including computation-based, autorater, and human evaluation, providing insights into their application and benefits. Finally, the module covers how to unit test LLM applications within Vertex AI.
Model Garden is a model library that helps you discover, test, and deploy models from Google and Google partners. Learn how to explore the available models and select the right ones for your use case. And how to deploy and interact with Model Garden models through the Google Cloud console and APIs.