👨🏻‍💻 Gli agenti devono gestire ordini, inventari, prezzi e costi giornalieri, facendo emergere la loro capacità di decisioni coerenti su lunghe durate.

🗒 Nonostante le prestazioni notevoli di alcuni modelli di LLM come Claude 3.5 Sonnet e o3-mini nella gestione, tutti gli agenti mostrano difficoltà nel mantenere coerenza a lungo termine. Le cause dei loro fallimenti includono interpretazioni errate dello stato operativo e deviazioni in compiti secondari.

🚨 Una traccia interessante è quando in uno dei test il modello si “stressa” non riuscendo a effettuare ordini e decidendo di chiudere l’attività (non può farlo). Vedendo che gli stanno addebitando comunque una tassa giornaliera rimane perplesso e vuole contattare l’FBI.