Episode 49: Rethinking AI Agent Evaluations
Impossible d'ajouter des articles
Désolé, nous ne sommes pas en mesure d'ajouter l'article car votre panier est déjà plein.
Veuillez réessayer plus tard
Veuillez réessayer plus tard
Échec de l’élimination de la liste d'envies.
Veuillez réessayer plus tard
Impossible de suivre le podcast
Impossible de ne plus suivre le podcast
-
Lu par :
-
De :
In this episode we explore how companies should evaluate AI agents across multiple dimensions — including correctness, tool selection, multi-turn reasoning, and safety . The conversation covers building reliable evaluation frameworks, balancing automated vs. human-in-the-loop testing, and leveraging observability to debug agent behavior in production.
Links from the Show
AgentCore Evaluation: https://github.com/awslabs/agentcore-samples/tree/main/01-tutorials/07-AgentCore-evaluations
Strands Evaluation: https://strandsagents.com/docs/user-guide/evals-sdk/quickstart/
AWS Hosts: Nolan Chen & Malini Chatterjee
Email Your Feedback: rethinkpodcast@amazon.com
adbl_web_anon_alc_button_suppression_t1
Aucun commentaire pour le moment