이 과정은 머신러닝 실무자에게 생성형 AI 모델과 예측형 AI 모델을 평가하는 데 필요한 도구, 기술, 권장사항을 제공합니다. 모델 평가는 프로덕션 단계의 ML 시스템이 안정적이고 정확하고 성능이 우수한 결과를 제공할 수 있게 하는 중요한 분야입니다. 강의 참가자는 다양한 평가 측정항목, 방법, 각각 다른 모델 유형과 작업에 적합한 애플리케이션에 대해 깊이 있게 이해할 수 있습니다. 이 과정에서는 생성형 AI 모델의 고유한 문제를 강조하고 이를 효과적으로 해결하기 위한 전략을 소개합니다. 강의 참가자는 Google Cloud의 Vertex AI Platform을 활용해 모델 선택, 최적화, 지속적인 모니터링을 위한 견고한 평가 프로세스를 구현하는 방법을 알아볼 수 있습니다.
This course delves into the complexities of assessing the quality of large language model outputs. It examines the challenges enterprises face due to the subjective and sometimes incorrect nature of LLM responses, including hallucinations and inconsistent results. The course introduces various evaluation metrics for different tasks like classification, text generation, and question answering, such as Accuracy, Precision, Recall, F1 score, ROUGE, BLEU, and Exact Match. It also explores evaluation methods offered by Vertex AI LLM Evaluation Services, including computation-based, autorater, and human evaluation, providing insights into their application and benefits. Finally, the module covers how to unit test LLM applications within Vertex AI.
Model Garden is a model library that helps you discover, test, and deploy models from Google and Google partners. Learn how to explore the available models and select the right ones for your use case. And how to deploy and interact with Model Garden models through the Google Cloud console and APIs.