OpenAI ha svelato un nuovo modello di intelligenza artificiale che cambierà il modo in cui gli utenti interagiscono con ChatGPT. Il chatbot avrà ora la capacità di parlare per rispondere alle richieste degli utenti, nonché la capacità di comprendere contenuti video e testuali.
“Questo aggiornamento è molto più veloce e migliora le capacità di testo, visione e voce”, ha affermato Mira Moratti, CTO di OpenAI, durante l’evento in cui l’azienda lo ha presentato. Ha spiegato come funzionerà questo aggiornamento, che arriverà gratuitamente a tutti gli utenti.
Una delle caratteristiche più interessanti di GPT-4o è la sua capacità “nativamente multimediale”. Ciò significa che Il modello può generare contenuti o comprendere comandi tramite voce, testo o immagini, aprendo una serie di possibilità nell’interazione tra esseri umani e intelligenza artificiale.
Prima del lancio di GPT-4o, sono emerse speculazioni sui piani di OpenAI, che vanno dalla creazione di un motore di ricerca basato sull’intelligenza artificiale per competere con Google, all’offerta di un assistente vocale integrato in GPT-4 o addirittura un GPT-5 completamente nuovo.
Tuttavia, con l’annuncio di GPT-4o, OpenAI ha voluto concentrarsi interamente sull’esperienza dell’utente, Perché sostanzialmente offre le stesse funzionalità di creazione di contenuti della versione tradizionale, ma con l’aggiunta di farlo tramite audio.
In precedenza, l’interazione con ChatGPT era limitata principalmente al testo, ma con l’input vocale gli utenti possono ora comunicare con il sistema in modo più semplice e naturale. Ciò è possibile grazie alla capacità di GPT-4o di elaborare e generare risposte in tempo reale e persino di catturare le emozioni nella voce dell’utente e riprodurle in stili diversi.
Per quanto riguarda la sua disponibilità, OpenAI ha confermato che GPT-4o sarà disponibile gratuitamente per tutti gli utenti ChatGPT. accanto a, Gli utenti a pagamento potranno usufruire di limiti di capacità fino a cinque volte maggiori rispetto agli utenti gratuiti.
L’implementazione della voce in ChatGPT non solo migliora l’esperienza dell’utente, ma espande anche notevolmente le capacità della piattaforma. Ora, ChatGPT non solo può rispondere a domande di testo, ma può anche comprendere e generare risposte basate su comandi vocali, rendendolo uno strumento ancora più versatile e potente.
Oltre all’audio, GPT-4o migliora anche le capacità del campo visivo di ChatGPT. Ora, Il sistema può analizzare immagini o screenshot e fornire informazioni pertinenti o risposte a domande specifiche.
Gli sviluppatori trarranno vantaggio anche dalla disponibilità di GPT-4o tramite l’API OpenAI. Fornendo l’accesso al modello a metà prezzo e due volte più veloce di GPT-4 Turbo, questa API consentirà agli sviluppatori di integrare funzionalità vocali nelle proprie applicazioni e sistemi, aprendo nuove possibilità nello sviluppo di applicazioni AI.
Per comprendere tutta questa novità, OpenAI ha offerto un lungo elenco di esempi, poiché le opzioni offerte da questo nuovo modello linguistico sono molto ampie e gli utenti possono trovare opzioni Dalle semplici richieste di chat, alle traduzioni in tempo reale, all’analisi del codice. Ecco alcuni esempi:
- Chat normale: ChatGPT ora può rispondere in modo più flessibile, perché non prende la voce dell’utente, la converte in testo e quindi restituisce un risultato audio. Salta questo processo e rispondi immediatamente con la tua voce in un tono amichevole, piacevole e amichevole. Quindi puoi usarlo per avere una conversazione informale, porre domande, fare ricerche e chiedere aiuto.
- traduzione: Durante la presentazione hanno testato ChatGPT per tradurre in tempo reale una conversazione in inglese e italiano. L’assistente ha preso l’audio in ciascuna lingua e lo ha tradotto immediatamente. Essere uno strumento utile per viaggi, riunioni e altro ancora.
- Analisi delle immagini: Il chatbot avrà accesso alla fotocamera dell’utente, quindi sarà possibile mostrargli immagini per risolvere un problema di matematica, determinare cos’è un oggetto o persino giocare a sasso, carta o forbici.
- Analisi del codice e del grafico: ChatGPT capirà i codici di programmazione come nella sua versione tradizionale, ma con la differenza di dare una risposta vocale quindi tutto è più flessibile. Inoltre, potrai ricevere immagini dal tuo computer per analizzare e creare contenuti.
“Guru dei social media. Caduta molto. Fanatico del caffè freelance. Appassionato di TV. Gamer. Amante del web. Piantagrane impenitente.”