Neste curso, profissionais de machine learning vão conhecer as principais ferramentas, técnicas e práticas recomendadas para avaliar modelos de IA generativa e preditiva. Essa avaliação é muito importante para garantir que os sistemas de ML produzam resultados confiáveis, precisos e de alto desempenho na produção. Os participantes vão entender em detalhes as várias métricas e metodologias de avaliação, além da aplicação correta delas em diferentes tarefas e tipos de modelo. O foco do curso está nos desafios específicos dos modelos de IA generativa e nas estratégias para lidar com eles de forma eficaz. Usando a plataforma Vertex AI do Google Cloud, os participantes vão aprender a implementar processos robustos de avaliação para selecionar e otimizar os modelos, com monitoramento contínuo.
This course delves into the complexities of assessing the quality of large language model outputs. It examines the challenges enterprises face due to the subjective and sometimes incorrect nature of LLM responses, including hallucinations and inconsistent results. The course introduces various evaluation metrics for different tasks like classification, text generation, and question answering, such as Accuracy, Precision, Recall, F1 score, ROUGE, BLEU, and Exact Match. It also explores evaluation methods offered by Vertex AI LLM Evaluation Services, including computation-based, autorater, and human evaluation, providing insights into their application and benefits. Finally, the module covers how to unit test LLM applications within Vertex AI.
Model Garden is a model library that helps you discover, test, and deploy models from Google and Google partners. Learn how to explore the available models and select the right ones for your use case. And how to deploy and interact with Model Garden models through the Google Cloud console and APIs.