Intelligenza artificiale generativa: 7 modelli di utilizzo

L’intelligenza artificiale generativa è una delle novità più interessanti del 2023. Ma quali sono i modelli di utilizzo più rivoluzionari? E come vengono applicati ai software? Ecco la risposta.

Seguici su

Si sente sempre più spesso parlare di intelligenza artificiale generativa, una branca dell’IA che è in grado, partendo da un input, di fornire diversi tipi di output (vocali, scritti, in formato video ecc.), utilizzando algoritmi di apprendimento automatico.

Attualmente, i modelli più diffusi sono quelli che permettono la creazione di software in grado di recepire le istruzioni in formato scritto o in formato vocale. Questa tecnologia, tuttavia, è in continua trasformazione, è quindi possibile che presto vedano la luce nuovi tipi di modelli.

Uno dei software più conosciuti al momento è ChatGPT, il chatbot realizzato da OpenAI, società presieduta da Sam Altman. ChatGPT è in grado - tra le altre cose - di fornire una risposta a moltissime delle domande che l’utente gli pone in poco tempo grazie alla sua intelligenza artificiale. Per diventare così «preparato» e rapido, il modello su cui si basa il software è stato «allenato» con moltissimi dati, il che lo ha reso molto performante.

Intelligenza artificiale generativa: i modelli di utilizzo

Esistono moltissimi modelli di intelligenza artificiale generativa, vediamo quali sono i più popolari e quali sono i software che li sfruttano.

Text-to-Image (T2I), ovvero dal testo all’immagine. Il T2I è un modello di intelligenza artificiale generativa che è in grado di elaborare un’immagine partendo da un input testuale. Tra i software più famosi che sfruttano questo modello c’è Dall-E 2, realizzato da OpenAI.
Text-to-Video (T2V), ovvero dal testo al video. Il modello T2V può essere utilizzato per creare software di produzione video. Una delle piattaforme più popolari che sfruttano questo modello è Synthesia, che attraverso l’intelligenza artificiale è in grado di creare video in cui degli avatar pronunciano delle frasi scelte dall’utente. Il risultato è quindi un filmato con un avatar che parla come se fosse una persona reale. È ottimo per realizzare tutorial e video di presentazione.
Text-to-Audio (T2A), cioè dal testo all’audio. Il modello T2A è forse uno dei più semplici, poiché prevede che il software che lo sfrutta legga «con voice propria» ciò che un utente scrive. Alcune piattaforme offrono già questa possibilità, tra cui ad esempio Google traduttore, ma grazie all’innovazione ne sono nate di recente anche alcune altre davvero molto performanti. Uno dei più popolari basati su questo modello è Resemble.AI, che permette di scegliere fra diverse voci disponibili per leggere un discorso. Una volta scelta quella che più si apprezza, è possibile scaricare l’audio.
Text-to-Text (T2T), ossia dal testo al testo. Il T2T è uno dei modelli più famosi. Su di esso si basa ChatGPT, il software che sembra poter rispondere a qualsiasi domanda. In generale, questo tipo di modello è in grado di recepire un input testuale e fornirne uno dello stesso tipo che può essere di natura creativa, ma anche per esempio una correzione oppure una traduzione.
Text-to-Code (T2C), ovvero dal testo al codice di programmazione. Il modello T2C sarà sicuramente uno di quelli di cui si sentirà più parlare nel prossimo futuro, anche a causa della diffusa mancanza di programmatori informatici qualificati sul mercato del lavoro. Grazie a questo modello, è possibile inserire in un software un input descrittivo, in cambio, il software basato su questo modello restituisce come output un codice che può essere usato per programmare. L’input, ovviamente, per essere efficace deve essere ben strutturato, deve cioè contenere informazioni fondamentali come ad esempio il linguaggio di programmazione in cui si desidera il codice output. Uno dei software in grado di svolgere questo compito sarà sicuramente Google Bard, le cui capacità sono state presentate durante il Google I/O 2023.

leggi anche

Ue: nuove regole sul copyright per l’intelligenza artificiale generativa
Audio-to-Text (A2T), cioè dall’audio al testo. Sul modello A2T si basano i software che elaborano gli input vocali oppure in formato video (purché il video abbia l’audio) e li trasformano in formato scritto. Uno strumento di questo tipo è Speechtext.AI, disponibile sia in versione web app che API.
Image-to-Text (I2T), ossia dall’immagine al testo. Sul modello I2T si basano i software che permettono di inserire come input un’immagine che al suo interno presenta una parte testuale, come ad esempio la fotografia di un manifesto, e di ottenere in cambio un file (in diversi formati) con all’interno il testo visibile nell’immagine. Un esempio di software di questo tipo è OCR.best, che consente di inserire come input delle immagini con testo per poi poterne scaricare il contenuto testuale.

Argomenti

# Tecnologia

# Intelligenza artificiale