
Image by Firmbee.com, from Unsplash
Google Gemini 2.5 Introduce Strumenti Audio in Tempo Reale e Personalizzati per il Discorso
Google ha introdotto le capacità audio native nel modello Gemini 2.5, espandendo il suo supporto nativo per il dialogo in tempo reale e la generazione di testo in voce controllabile (TTS).
Sei di fretta? Ecco i punti salienti:
- Gli utenti possono controllare tono, accento ed emozione usando la voce o dei comandi.
- Le funzionalità di conversione da testo a voce consentono la generazione di audio espressivo, multilingue e con più speaker.
- Gemini può ignorare i rumori di fondo e rispondere solo quando è pertinente.
Google ha annunciato che ora gli utenti e gli sviluppatori possono utilizzare l’IA per le conversazioni parlate e produrre contenuti audio, attraverso più di 24 opzioni di lingua.
Google afferma che ora Gemini 2.5 genera e comprende il discorso direttamente in audio, il che consente agli utenti di interagire in modo più rapido e naturale. Il modello accetta comandi in linguaggio naturale per modificare il suo tono, accento e stile, aggiungendo al contempo caratteristiche non verbali come pause e sussurri.
Il sistema mantiene la connettività con strumenti esterni attraverso Google Search e API personalizzate, durante le conversazioni per recuperare informazioni pertinenti.
Una funzionalità mira a migliorare la consapevolezza del contesto. Il sistema Gemini 2.5 rileva il discorso o il rumore di fondo per fornire risposte solo quando appropriato. Il sistema supporta la comprensione audio-video, che gli permette di analizzare e fornire commenti sul flusso video, o sui contenuti condivisi sullo schermo.
Anche il componente text-to-speech è stato aggiornato. Gli utenti possono ora controllare la generazione audio con funzionalità avanzate che includono la regolazione del tono emotivo, il controllo del ritmo, la personalizzazione della pronuncia e l’output audio multi-voce. Le funzionalità funzionano con diversi tipi di contenuti, tra cui racconti, annunci e podcast.
Google fornisce Gemini 2.5 Pro e anteprime Flash per gli sviluppatori tramite Google AI Studio o Vertex AI. L’anteprima Flash serve per un utilizzo rapido ed economico, ma Pro offre una funzionalità avanzata per i prompt complessi.
Google ha implementato la marcatura tramite SynthID in tutto l’audio generato dall’IA durante lo sviluppo per garantire la trasparenza e ha condotto valutazioni del rischio per motivi di sicurezza. L’azienda ha effettuato valutazioni di sicurezza interne ed esterne prima di rilasciare il sistema al pubblico. Google implementa queste funzionalità come parte della sua iniziativa per sviluppare sistemi di IA multimodali, che operano tra testo, immagine, video, codice e audio avanzato.