I nuovi modelli di intelligenza artificiale di OpenAI possono ora “pensare” con le immagini

Image by Emilinao Vittoriosi, from Unsplash

I nuovi modelli di intelligenza artificiale di OpenAI possono ora “pensare” con le immagini

Tempo di lettura: 3 Min.

OpenAI ha lanciato o3 e o4-mini, modelli AI avanzati che combinano la manipolazione dell’immagine con il ragionamento basato sul testo per risolvere problemi complessi.

Sei di fretta? Ecco i fatti essenziali:

  • Questi modelli manipolano, ritagliano e trasformano le immagini per risolvere compiti complessi.
  • o3 e o4-mini superano i modelli precedenti nelle domande STEM, nella ricerca visiva e nella lettura di grafici.
  • I modelli combinano il trattamento del testo e delle immagini, utilizzando strumenti come la ricerca sul web e l’analisi del codice.

OpenAI ha annunciato due nuovi modelli di intelligenza artificiale, o3 e o4-mini, capaci di ragionare con le immagini, segnando un importante salto nel modo in cui l’intelligenza artificiale comprende ed elabora le informazioni visive.

“Questi sistemi possono manipolare, ritagliare e trasformare le immagini a servizio del compito che desideri eseguire”, ha detto Marc Chen, capo della ricerca di OpenAI, durante un evento in diretta mercoledì, come riportato dal New York Times.

I modelli o3 e o4-mini hanno ora la capacità di analizzare le immagini come parte del loro processo di pensiero interno, mentre i modelli precedenti potevano solo vedere le immagini.

Il sistema consente agli utenti di caricare foto di problemi di matematica, diagrammi tecnici, appunti scritti a mano, poster, immagini sfocate o ruotate. Suddividerà il contenuto in spiegazioni passo-passo, indipendentemente da domande multiple o elementi visivi in un’unica immagine.

Ora il sistema può concentrarsi su parti non chiare di un’immagine, ruotandola per una migliore comprensione. Combina la comprensione visiva con il ragionamento basato sul testo per fornire risposte precise. Il sistema può interpretare grafici scientifici per spiegarne il significato e identificare errori di programmazione negli screenshot per generare soluzioni.

Anche i modelli possono utilizzare altri strumenti come la ricerca sul web, il codice Python e la generazione di immagini in tempo reale, che permette loro di risolvere compiti molto più complessi di prima. OpenAI afferma che queste capacità sono incorporate, senza la necessità di modelli specializzati aggiuntivi.

I test dimostrano che o3 e o4-mini si comportano meglio dei modelli precedenti in tutti i compiti visivi a cui sono stati sottoposti. Il benchmark di ricerca visiva, noto come V*, mostra o3 che raggiunge una precisione del 95,7%. Tuttavia, i modelli presentano ancora alcuni difetti, come afferma OpenAI: possono produrre errori dovuti a un eccesso di riflessione e errori di percezione di base.

OpenAI ha introdotto questo aggiornamento come parte della sua iniziativa per sviluppare sistemi IA che ragionano in modo simile agli esseri umani. I modelli richiedono sequenze di pensiero estensive per funzionare, il che significa che hanno bisogno di più tempo per gestire domande complesse. Integrono anche strumenti come la generazione di immagini, la ricerca sul web e l’analisi del codice Python per fornire risposte più precise e creative.

Tuttavia, ci sono dei limiti. I modelli a volte elaborano quantità eccessive di informazioni, commettono errori di percezione e cambiano il loro approccio di ragionamento tra i diversi tentativi. L’azienda sta lavorando per migliorare l’affidabilità e la coerenza dei modelli.

Sia o3 che o4-mini sono ora disponibili per gli utenti di ChatGPT Plus (20 dollari al mese) e Pro (200 dollari al mese). OpenAI ha anche rilasciato Codex CLI, un nuovo strumento open-source per aiutare gli sviluppatori a eseguire questi modelli di intelligenza artificiale insieme al loro codice.

Mentre OpenAI affronta sfide legali riguardanti l’uso dei contenuti, la sua tecnologia di ragionamento visivo mostra come l’IA si stia avvicinando alla risoluzione di problemi reali in modi sempre più simili a quelli umani.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!