Un gruppo di ricercatori ha creato una finta azienda facendola gestire dall’intelligenza artificiale. Il risultato è stato poco rassicurante.
L’intelligenza artificiale è entrata prepotentemente nelle nostre vite, e c’è chi teme che in futuro possa sostituire l’uomo in diversi lavori. In effetti, alcune mansioni rischiano di scomparire perché totalmente automatizzabili. Tuttavia, la sostituzione dell’uomo non è così semplice da attuare: i moderni sistemi di intelligenza artificiale si dimostrano ancora poco affidabili. A dimostrarlo è una ricerca condotta da alcuni ricercatori della Carnegie Mellon University, che hanno simulato la gestione di un’intera azienda affidandola esclusivamente ad agenti di intelligenza artificiale.
Vediamo com’è andata, anticipando che chi teme un’imminente sostituzione totale da parte dell’AI può, almeno per ora, tirare un sospiro di sollievo.
L’AI può sostituire l’uomo?
È questa la domanda a cui i ricercatori hanno voluto rispondere, simulando una vera e propria azienda i cui «dipendenti» erano agenti basati su diversi modelli linguistici di intelligenza artificiale: da Claude di Anthropic a GPT-4o di OpenAI, passando per Google Gemini, Amazon Nova, Meta Llama e Qwen di Alibaba.
Il risultato del test è stato poco incoraggiante per chi immaginava una gestione aziendale completamente automatizzata: gli agenti hanno infatti fallito oltre tre quarti dei compiti assegnati.
Tra le attività richieste vi erano, ad esempio, l’analisi di database attraverso la navigazione tra file, oppure la conduzione di tour virtuali per scegliere nuovi locali. Claude è risultata la piattaforma più performante, completando però solo il 24% dei compiti assegnati. Anche considerando i compiti parzialmente portati a termine, il suo punteggio massimo raggiunge appena il 34,4%. Al secondo posto troviamo Gemini di Google, con un misero 11,4%. Tutti gli altri sistemi non sono riusciti a superare la soglia del 10%.
L’intelligenza artificiale mostra di avere ancora diversi limiti
La ricerca ha evidenziato come i sistemi attuali abbiano ancora difficoltà nella comprensione di istruzioni implicite. Un esempio emblematico? La mancata associazione di un file con estensione “.docx” a Microsoft Word: un passaggio intuitivo per un essere umano, ma non così ovvio per un’intelligenza artificiale.
Le criticità non finiscono qui. L’assenza di competenze sociali, fondamentali per interpretare sfumature, contesti e intenzioni, porta spesso gli agenti a fallire anche in compiti apparentemente semplici. Il problema si aggrava nella navigazione web, dove elementi come popup e interfacce non lineari rappresentano ancora ostacoli significativi. In questi casi, quando «si sentono persi», i sistemi tendono a evitare le parti più complesse del compito, prendendo scorciatoie che li portano a credere erroneamente di aver concluso correttamente l’attività.
Secondo i ricercatori, questi risultati dimostrano quanto lavoro resti ancora da fare per rendere l’intelligenza artificiale davvero autonoma ed efficace nelle situazioni quotidiane, soprattutto quelle meno strutturate.
Infine, un dato interessante riguarda i costi di gestione: Claude è risultata la più costosa, con 6,34 dollari per sessione, mentre Gemini si ferma a soli 0,79 dollari. Una differenza significativa, che mostra come l’affidabilità non sia ancora proporzionale al prezzo.
© RIPRODUZIONE RISERVATA