Kursus ini membekali para praktisi machine learning dengan alat, teknik, dan praktik terbaik penting untuk mengevaluasi model AI generatif dan prediktif. Evaluasi model adalah disiplin ilmu yang sangat penting untuk memastikan sistem ML memberikan hasil yang andal, akurat, dan berperforma tinggi dalam produksi. Peserta akan mendapatkan pemahaman yang mendalam mengenai berbagai metrik evaluasi, metodologi, dan penerapannya yang sesuai di berbagai jenis model dan tugas. Kursus ini akan berfokus pada tantangan unik yang dibuat oleh model AI generatif dan memberikan strategi untuk mengatasinya secara efektif. Dengan memanfaatkan platform Vertex AI di Google Cloud, para peserta akan belajar cara mengimplementasikan proses evaluasi yang kuat untuk melakukan pemilihan, pengoptimalan, dan pemantauan berkelanjutan pada model.
This course delves into the complexities of assessing the quality of large language model outputs. It examines the challenges enterprises face due to the subjective and sometimes incorrect nature of LLM responses, including hallucinations and inconsistent results. The course introduces various evaluation metrics for different tasks like classification, text generation, and question answering, such as Accuracy, Precision, Recall, F1 score, ROUGE, BLEU, and Exact Match. It also explores evaluation methods offered by Vertex AI LLM Evaluation Services, including computation-based, autorater, and human evaluation, providing insights into their application and benefits. Finally, the module covers how to unit test LLM applications within Vertex AI.
Model Garden is a model library that helps you discover, test, and deploy models from Google and Google partners. Learn how to explore the available models and select the right ones for your use case. And how to deploy and interact with Model Garden models through the Google Cloud console and APIs.