Génération audio native de Google AI Studio en utilisant Gemini 2.5
Coucou mes amis du blog de BlindHelp!
Aujourd’hui je vous apporte un tutoriel très intéressant, il s’agit de:
Native speech generation
de Google AI Studio
.
Maintenant, nous vous donnons tous les détails à ce sujet.
Google a pris un nouveau service appelé “Native speech generation
(Génération audio native).
Cela a été présenté à la conférence annuelle de GOOGLE I/O 2025 (20 Mai 2025)
https://blog.google/technology/ai/io-2025-keynote/
VO3 (Génération audio native)
Un nouveau modèle de pointe, VO3, est introduit et disponible dès aujourd’hui. VO3 permet la génération audio native, permettant aux personnages de parler avec une synchronisation labiale précise.
Il consiste à convertir du texte en voix (text-to-speech), en utilisant l’intelligence artificielle de Google Studio en utilisant Gemini 2.5.
Ils ont atteint des voix de haute qualité, super-réalistes et même avec des inflexions.
Cela peut être fait grâce aux deux modes proposés par Gemini, qui sont:
Gemini 2.5 Pro et Flash
Google a présenté à la conférence annuelle mentionnée ci-dessus de GOOGLE I/O 2025 (20 Mai 2025) Gemini 2.5 Pro, décrit comme son modèle le plus intelligent à ce jour. Il excelle dans des tâches complexes telles que le codage et le raisonnement avancé. Parallèlement, Gemini 2.5 Flash a été amélioré pour offrir des performances accrues en matière de raisonnement, de multimodalité et de traitement de contexte long, tout en étant plus efficace en termes de consommation de tokens .
Pour revenir à notre affaire, je vous dirai que la génération audio native est correcte.
Et nous allons vous montrer comment l’utiliser et ceci est totalement gratuit.
De quoi avons-nous besoin?
- Avoir simplement un compte Google Gmail,
- un navigateur et,
- une connexion Internet.
Alors sans plus tarder, allons-y.
Eh bien, nous allons commencé ce tutoriel sur Google Speech Generation
.
Pour commencer, je voulais vous dire que ceci a été testé avec:
- Le lecteur d’écran NVDA 2025.1.2
- Windows 11.24H2
Quel navigateur vais-je utiliser?
Eh bien, je vais utiliser le navigateur Microsoft Edge basé sur Chromium.
Et je vous recommande d’utiliser n’importe quel navigateur ou encore mieux ceux basés sur Chromium.
Parce qu’avec Firefox, si c’est vrai, vous pouvez le faire mais il y a une chose qui ne pourra pas le faire et que je vais vous le signaler ci-après.
Je vous recommande donc d’utiliser le navigateur dans Chrome.
Pour ma part je vais donc utiliser Microsoft Edge.
Et la première chose que je vais faire est d’entrer dans la Page Web de Google AI Studio
Cette page Web une fois ouverte est en anglais bien sûr.
Pour utiliser Native speech generation
de Google AI Studio
en utilisant Gemini 2.5 comme je l’ai déjà dit précédemment dans un premier post consultable à partir du lien ci-dessous, vous devez vous connecter avec un compte Google afin que vous puissiez accéder à l’IA de Google. Vous pouvez obtenir de l’aide pour rédiger, planifier, apprendre et plus encore.
Gemini 2.0 Flash - Parlez et visionnez en temps réel grâce à Google AI
Mais le post d’aujourd’hui il consiste à convertir du texte en voix (text-to-speech), en utilisant l’intelligence artificielle de Google Studio en utilisant Gemini 2.5.
Pour en savoir plus sur l’API de Gemini qui propose la fonctionnalité Speech generation, vous pouvez cliquer sur le lien ci-dessous (page en français. )
Speech generation (text-to-speech) - Gemini API
Eh bien, une fois que vous avez entré sur le lien de Gemini AI Studio, une fois que vous êtes identifié avec votre compte Google suivez les directives suivantes:
Recherche du bouton appelé Native speech generation
La première chose à faire est de rechercher avec le lecteur NVDA L’élément appelé:
Native speech generation
en appuyant sur la touche
b : bouton
ou en appuyant sur les touches:
NVDA+contrôle+f
pour rechercher le terme en anglais appelé:
Native speech generation
Une fois que vous avez trouvé, appuyez sur la barre d’espace pour activer ce bouton.
Une fois activé, s’ouvrira une nouvelle fenêtre.
Sur cette page, vous trouverez deux boutons en anglais appelés:
Single-speaker audio
Multi-speaker audio
Ces deux boutons se trouvent après le titre niveau 3 en anglais appelé:
Mode
Le premier bouton c’est pour la narration complète du texte fait par un seul intervenant et le deuxième bouton c’est pour la narration complète du texte fait par deux intervenants.
Dans le cas du deuxième bouton il permet de combiner jusqu’à deux voix différentes dans le même audio, idéales pour les dialogues, les podcasts ou les récits plus dynamiques.
Utilisation du premier bouton appelé Single-speaker audio
Eh bien, dans cette première partie du tutoriel, choisissez le premier bouton en anglais appelé:
Single-speaker audio
Faire Entrée sur lui Et une nouvelle fenêtre s’ouvre.
Recherche du champ d’édition appelé Style instructions
Comment donner les instructions pour que la voix se comporte ou avoir les inflexions que nous indiquons?
Pour cela, vous devrez faire ce qui suit:
Rechercher le titre niveau 4 en anglais appelé:
Style instructions
Faire une flèche bas et vous trouverez cette ligne en anglais:
Read aloud in a warm and friendly tone:
La traduction de cette ligne dans notre belle langue le français est la suivante:
Lisez à haute voix sur un ton chaleureux et amical:
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
Dans ce champ d’édition vous pouvez mettre les instructions de style supportées par Gemini.
Describe the style of your dialog, e.g. "Read this in a dramatic whisper"
Par exemple vous pouvez utiliser l’instruction de style:
dynamique
mystérieux
essoufflé
triste
rire
neutre
Une fois les instructions de style placées, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Vous pouvez également utiliser d’autres instructions de style comme les accents régionaux ou les accents étrangers et même pour faire lire une histoire en utilisant une instruction de style encore plus drôle.
Pour plus de détails sur ces instructions de style, veuillez consulter la section correspondante ci-après.
Vous pourriez même demander la même chose à Gemini! 🤔
Comment écrire ou coller le texte du dialogue que nous voulons que la génération audio native la convertisse?
Ci-dessous, vous trouverez une autre boîte d’édition où vous pouvez commencer à écrire ou coller du texte.
Rechercher le titre niveau 4 en anglais appelé:
Text
Faire une flèche bas.
Ici, vous trouverez le deuxième champ d’édition qui est vide.
Notre lecteur d’écran NVDA nous dira:
Start writing or paste text here to generate speech
édition multiligne vide
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
C’est là que vous pouvez coller le texte à être verbalisé.
Je suppose que si vous avez déjà préparé un texte au préalable vous pouvez le coller ici en utilisant les touches Ctrl+v
Une fois le texte placé, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Maintenant que vous avez inséré les instructions de style supportées par Gemini puis vous avez mis le texte à être verbalisé Dans ces deux champs d’édition nous devrons maintenant choisir les voix avec lesquelles nous voulons interagir dans une liste déroulante.
Comment sélectionner une voix?
Pour cela, vous devrez faire ce qui suit:
Rechercher le titre niveau 3 en anglais appelé
Voice
Faire une flèche bas et vous trouverez une liste déroulante.
Faire plusieurs fois c : liste déroulante pour la trouver avec notre lecteur d’écran NVDA
Une fois trouvé notre lecteur d’écran NVDA nous dira:
cliquable liste déroulante réduit ouvre une liste Zephyr
puis appuyez sur la barre d’espace pour activer cette liste déroulante.
Ici, vous trouverez plusieurs voix en anglais pour tester, il existe des voix masculines et féminines.
Par exemple voici une voix d’homme:
play_circle Charon Informative, Lower pitch
et la voix d’une femme:
play_circle Zephyr Bright, Higher pitch
Une fois la voix choisie, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Vous trouverez un bouton en anglais pour lire un texte en anglais avec la voix choisie au-dessus du nom de la voix, celui-ci s’appelle:
Play audio sample
Vous devez insister plusieurs fois pour que ce bouton soit affiché.
Vous devez faire deux appuis avec la barre d’espace sur le nom de la voix choisie.
Pour plus de détails sur les noms des voix disponibles, veuillez consulter les sections ci-après.
Comment sélectionner le modèle de Gemini à utiliser pour la conversion TTS?
J’ai oublié de dire qu’avant le titre niveau 3 en anglais appelé:
Mode
Vous trouverez également une liste déroulante.
Faire plusieurs fois c : liste déroulante pour la trouver avec notre lecteur d’écran NVDA
Une fois trouvé notre lecteur d’écran NVDA nous dira:
cliquable liste déroulante réduit ouvre une liste Gemini 2.5 Pro Preview TTS
Cette option je l’ai laissé par défaut.
Si vous faites une flèche bas, vous trouverez la deuxième option appelée:
cliquable liste déroulante réduit ouvre une liste Gemini 2.5 Flash Preview TTS
Il s’agit d’essayer l’une des deux options, la première est un peu plus lente et la seconde est plus rapide.
Comment lancer la conversion en utilisant le bouton appelé Run
?
Une fois choisi la voix et le modèle, vous devrez chercher un bouton en anglais appelé:
Run
Notre lecteur d’écran NVDA nous dira:
Run bouton Run prompt
Faire plusieurs fois maj+b pour trouver ce bouton avec notre lecteur d’écran NVDA.
et faire Entrée sur lui.
Selon la quantité de texte inséré dans le champ d’édition (Celui qui était vide), la génération de celui-ci peut demander un certain temps. Donc, veuillez patienter…
De toute façon il va finir par arriver notre texte convertis en audio !
Une fois la génération terminée, l’audio du texte sera entendu dans notre langue, dans mon cas, le texte a été écrit à la base en français!
Ceci c’est nouveau pour moi et je le teste en écrivant en même temps ce tutoriel pour vous, mes amis du blog de BlindHelp! ✍
Comment télécharger le fichier audio résultant de la conversion du texte en voix avec: Google Speech Generation
?
Si ce texte parler vous convient, vous pouvez télécharger ce fichier audio en cliquant sur le bouton appelé:
afficher plus de commandes multimédias bouton de menu sous-Menu plus d'options
Notez que Ce bouton n’est pas affiché en utilisant Firefox.
C’est le problème que j’ai mentionné ci-dessus en utilisant Firefox.
Je pense que vous pouvez faire Ctrl+s pour enregistrer ledit fichier audio, je ne suis pas sûr. 😔
Une fois que vous avez fait Entrée sur ce bouton, appuyez sur Entrée sur l’élément appelé:
télécharger des contenus multimédias 1 sur 2
Puis allez dans le dossier appelé “Téléchargements”
Vous y trouverez le fichier appelé:
téléchargement.wav
Notez que au même niveau de ce bouton mentionné ci-dessus, vous aurez les boutons suivants:
- lire
- muet
Vous trouverez également un potentiomètre que vous informera de la durée audio, c’est-à-dire: la durée totale et le temps écoulé
Pour conclure la première partie de ce tutoriel, dire qu’une fois votre fichier WAV téléchargé, ce fichier ne sera plus disponible.
Si vous souhaitez écouter l’échantillon audio de la conversion de mon texte en français en utilisant le premier bouton appelé Single-speaker audio
, veuillez consulter la section correspondante ci-après.
Utilisation du deuxième bouton appelé Multi-speaker audio
Eh bien, maintenant, nous allons attaquer la deuxième partie du tutoriel, choisissez le deuxième bouton en anglais appelé:
Multi-speaker audio
Faire Entrée sur lui Et une nouvelle fenêtre s’ouvre.
Je suppose que vous n’avez pas sortie de la page Web de Google AI Studio
Sinon, vous devrez faire les mêmes étapes ci-dessus que vous avez utilisé Pour choisir le premier bouton en anglais appelé:
cliquable bouton Single-speaker audio
Mais cette fois en choisissant le deuxième bouton en anglais appelé:
cliquable bouton Multi-speaker audio
Faire Entrée sur lui Et une nouvelle fenêtre s’ouvre.
Rechercher le titre niveau 3 en anglais appelé:
Voice settings
Si nous faisons plusieurs flèches bas, le lecteur d’écran NVDA nous annoncera les noms des éléments suivants (toujours en anglais):
bouton développé Speaker 1 settings
Speaker 1 settings
région titre niveau 3 Name
hors de région bouton développé Speaker 1 settings
Speaker 1 settings
région titre niveau 3 Name
cliquable Speaker name
édition Speaker 1
Ensuite, nous trouverons le titre niveau 3 en anglais appelé:
Voice
suivi d’une liste déroulante annoncé par notre lecteur d’écran comme:
cliquable liste déroulante réduit ouvre une liste Zephyr
hors de région bouton développé Speaker 2 settings
Speaker 2 settings
région titre niveau 3 Name
cliquable Speaker name
édition Speaker 2
Ensuite, nous trouverons le titre niveau 3 en anglais appelé:
Voice
suivi d’une liste déroulante annoncé par notre lecteur d’écran comme:
cliquable liste déroulante réduit ouvre une liste Puck
Ce sont les valeurs des paramètres pour les multi-intervenant audio qui sont par défaut.
Ces éléments mentionnés ci-dessus seront expliqués plus en détail par mes soins, pour cela veuillez lire l’intégralité de la deuxième partie de ce tutoriel dans les sections ci-après.
Avant de commencer avec la deuxième partie de ce tutoriel, n’oubliez pas que vous pouvez utiliser les touches suivantes pour trouver ces éléments plus rapidement avec notre lecteur d’écran NVDA:
Les touches suivantes permettent d’aller à l’élément suivant. En les combinant avec maj, on retourne à l’élément précédent.
- h : titre
- e : zone d’édition
- b : bouton
- c : liste déroulante
Explications de la façon de structurer le texte, de sorte que la génération audio native de Gemini l’interprète comme un dialogue entre deux personnes.
Vous pouvez auparavant créer un texte en utilisant Le célèbre service appelé ChatGPT
et structurez ce texte en utilisant le Bloc-notes de Windows (Notepad), ou le Notepad++, ou le logiciel Bureautique Microsoft Word.
Par exemple, un dialogue entre deux personnes pourrait être structuré comme suit:
début de texte
Julie: suivi du texte à être vernaliser par cette première personne
Cela signifie que après le nom suivi de deux points puis Un espace vient le texte à être Verbaliser par le premier intervenant appelé en anglais Speaker 1
Si vous voulez que cette première personne verbalise plus de texte, vous pouvez insérer plusieurs lignes contenant le texte à être verbaliser l’un après l’autre.
Paul: suivi du texte à être vernaliser par cette deuxième personne
Cela signifie que sous cette ligne vient le nom du deuxième intervenant appelé en anglais Speaker 2
suivi de deux points puis Un espace ensuite vient le texte à être Verbaliser par cette deuxième personne
Si vous voulez que cette deuxième personne verbalise plus de texte, vous pouvez insérer plusieurs lignes contenant le texte à être verbaliser l’un après l’autre.
fin de texte
Quelques conseils utiles: Il est préférable de ne pas utiliser de signes de ponctuation, par exemple, point d’interrogation, point-virgule et autres signes qui entravent la génération lors de la conversion du texte en voix.
La question posée à ChatGPT était la suivante:
Avantages de l'intelligence artificielle utilisée pour les aveugles
ChatGPT a dit :
L’intelligence artificielle (IA) offre aujourd’hui de nombreux avantages concrets pour les personnes aveugles ou malvoyantes, en améliorant leur autonomie, leur inclusion sociale et leur accès à l’information :
🧭 1. Navigation et mobilité
- Guidage intérieur/extérieur : des applis comme DeepNAVI ou Seeing Eye GPS guident en temps réel les déplacements, détectant obstacles, intersections, niveaux sonores ou changements de direction (aiafricahub.org, partner.sciencenorway.no).
- Lunettes IA avec retour haptique : prototypes comme les lunettes .lumen utilisent la vision par ordinateur et des vibrations pour simuler l’assistance d’un chien guide (reddit.com).
- Robots assistants : par exemple, RoboGuide (Robbie), un robot-chien guidé par IA, offre une option alternative aux chiens guides traditionnels (thescottishsun.co.uk).
📖 2. Reconnaissance d’images et de textes
- Lecture en temps réel : apps comme Seeing AI, Envision ou OrCam MyEye utilisent OCR + IA pour transformer textes, panneaux, étiquettes en voix, livres et communications (evolveconnect.org).
- Description de scènes : ces outils offrent des descriptions de l’environnement, identifient des visages, des expressions ou des objets (menus, prix, bouteilles, etc.) (time.com).
🗣 3. Communication
- Applications comme Be My Eyes/Be My AI : relient les utilisateurs à des bénévoles ou à l’IA (GPT‑4), pour recevoir des descriptions visuelles sur demande (lhblind.org).
- Reconnaissance vocale + assistants intelligents : Siri, Alexa, assistants IA aident à envoyer des messages, naviguer dans les interfaces ou contrôler la maison connectée (aiafricahub.org).
📚 4. Éducation et accès à l’information
- Plateformes éducatives audio personnalisées : outils comme Audemy utilisent l’IA pour adapter les contenus pédagogiques selon le rythme et le style de l’utilisateur (arxiv.org).
- Traduction vers braille et audio : services comme RoboBraille convertissent des documents en braille, mp3, Daisy, e‑book dans plusieurs langues (en.wikipedia.org).
👥 5. Inclusion sociale et bien-être
- Reconnaissance faciale : les lunettes IA reconnaissent des proches, facilitant les interactions sociales .
- Textes alternatifs automatiques : les plateformes sociales (Facebook, Twitter, Instagram) intègrent des IA pour générer des descriptions d’images, améliorant l’inclusion en ligne (blindstreet.com).
- Confiance et indépendance : témoignages montrent que ces technologies renforcent la confiance en soi, l’indépendance, et réduisent le besoin d’assistance quotidienne .
✅ Bénéfices concrets de l’IA
Domaine | Compétence améliorée |
---|---|
Mobilité | Se déplacer seul, éviter obstacles et traverser des rues |
Information visuelle | Lire textes, comprendre environnements |
Communication | Envoyer des messages, participer à la vie numérique |
Éducation | Étudier, lire et apprendre de manière autonome |
Inclusion sociale | Socialiser, reconnaître les visages, participer activement |
🌱 Limitations & défis
- Fiabilité variable (erreurs de reconnaissance) (techassistantforblind.com, lhblind.org)
- Coûts élevés pour certains dispositifs (lunettes IA, robots) (en.wikipedia.org)
- Besoin d’acceptabilité, formation et intégration dans la vie quotidienne.
🔮 Vers l’avenir
- Miniaturisation (lunettes plus légères), intégration IoT (objets connectés)
- Déploiement plus large et réduction des coûts pour un accès universel
En résumé, l’IA est en train de transformer radicalement la vie des personnes aveugles ou malvoyantes : de la simple lecture de texte à la navigation autonome, elle ouvre la voie vers plus d’autonomie, d’inclusion et de bien-être. N’hésite pas à me demander plus d’infos si tu veux explorer un dispositif ou un usage en particulier !
Une fois ce texte obtenu, je peux mieux modifier ou structurer son contenu en conservant les informations les plus pertinentes, par exemple, en gardant la partie textuelle sans les liens, les titres de niveau spécifiés, la liste des éléments, etc, etc. en utilisant les programmes de Bureautiques mentionnés ci-dessus.
Une fois ce texte complètement structuré, je peux le sélectionner et le copier en utilisant les commandes d’éditions habituelles(Ctrl+a et Ctrl+c) et coller celui-ci dans le champ d’édition prévue à cet effet en utilisant la commande d’éditions habituelle (Ctrl+v).
Maintenant nous reviendrons avec la suite des explications de la page Web de Google AI Studio
Recherche du champ d’édition appelé Style instructions
Comment donner les instructions pour que la voix se comporte ou avoir les inflexions que nous indiquons?
Une fois sur cette page tout d’abord nous devrons faire ce qui suit:
Rechercher le titre niveau 4 en anglais appelé:
Script builder
Faire une flèche bas et vous trouverez cette ligne en anglais:
Style instructions
Faire encore une flèche bas et vous trouverez cette ligne en anglais:
Read aloud in a warm, welcoming tone
La traduction de cette ligne dans notre belle langue le français est la suivante:
Lisez à haute voix dans un ton chaleureux et accueillant
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
Dans ce champ d’édition vous pouvez mettre les instructions de style supportées par Gemini.
Une fois le texte supprimé dans ledit champ d’édition, notre lecteur d’écran l’annoncera comme suit:
Style instructions
édition multiligne Describe the style of your dialog, e.g. "Read this in a dramatic whisper" vide
Par exemple vous pouvez utiliser l’instruction de style:
dynamique
mystérieux
essoufflé
triste
rire
neutre
Une fois les instructions de style placées, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Vous pouvez également utiliser d’autres instructions de style comme les accents régionaux ou les accents étrangers et même pour faire lire une histoire en utilisant une instruction de style encore plus drôle.
Pour plus de détails sur ces instructions de style, veuillez consulter la section correspondante ci-après.
Vous pourriez même demander la même chose à Gemini! 🤔
Comment placer le texte que nous voulons convertir en voix (dans la partie Speaker 1
?
Pour cela, vous devrez faire ce qui suit:
Après avoir inséré les instructions de style comme indiqué ci-dessus, faire une flèche bas et vous trouverez cette ligne en anglais:
Speaker 1
Si nous refaisons une flèche bas nous trouverons un bouton en anglais appelé:
Delete dialog
Remarque: il me semble que ce bouton sert à effacer ce dialogue, je ne l’ai pas utilisé.
Si nous refaisons une flèche bas nous trouverons un champ d’édition toujours en anglais avec le contenu suivant:
Hello! We’re excited to show you our native speech capabilities`
La traduction de cette ligne dans notre belle langue le français est la suivante:
Bonjour! Nous sommes ravis de vous montrer nos capacités de voix naturelles
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
C’est là que le texte que nous avons précédemment structuré sera collé, si vous vous souvenez bien c’est le texte que nous avons modifié en utilisant l’un des programmes Bureautiques cités ci-dessus.
Une fois le texte placé avec CTrl+v dans ce champ d’édition, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Et maintenant, je vais devoir sélectionner d’autres paramètres sur cette page, donc, voici les explications ci-dessous.
Comment placer le texte que nous voulons convertir en voix (dans la partie Speaker 2
?
Une fois le texte inséré dans la partie Speaker 1
Faire une flèche bas et vous trouverez cette ligne en anglais:
Speaker 2
Si nous refaisons une flèche bas nous trouverons un bouton en anglais appelé:
Delete dialog
Remarque: il me semble que ce bouton sert à effacer ce dialogue, je ne l’ai pas utilisé.
Si nous refaisons une flèche bas nous trouverons un champ d’édition toujours en anglais avec le contenu suivant:
Where you can direct a voice, create realistic dialog, and so much more. Edit these placeholders to get started.
La traduction de cette ligne dans notre belle langue le français est la suivante:
Où vous pouvez diriger une voix, créer un dialogue réaliste et bien plus encore. Modifiez ces espaces réservés pour commencer.
Dans notre cas, nous n’avons pas besoin de modifier ce champ d’édition, et nous le laissons tel quel.
Tout dépend de ce que vous voulez faire.
Gardez à l’esprit que si vous souhaitez vous le modifier, vous pouvez le faire.
Pour ce faire,avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
Une fois le texte placé avec CTrl+v dans ce champ d’édition, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Mais comme je vous l’ai dit avant, ce champ d’édition pour insérer le texte dans la partie Speaker 2
je ne le toucherai pas, je le laisserai tel quel.
Comment changer le nom du Speaker 1
et du Speaker 2
?
Pour changer les noms du Speaker 1
et du Speaker 2
je devrai chercher le champ d’édition annoncé par notre lecteur d’écran NVDA comme:
cliquable Speaker name
édition Speaker 1
Ce champ d’édition est sous le titre niveau 3, ceci est annoncé par notre lecteur d’écran NVDA comme:
Speaker 1 settings
région titre niveau 3 Name
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
Ce texte en anglais est annoncé par notre lecteur d’écran NVDA comme:
Speaker 1
Une fois ce texte en anglais supprimé dans ce champ d’édition, vous devrez écrire le nouveau nom de ce premier intervenant appelé en anglais Speaker 1
sans les deux points, dans notre cas nous avons choisi comme nom:
Julie
Une fois la saisie terminée, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Comment sélectionner les voix 1 et 2?
Maintenant, nous choisirons la Première voix de cet intervenant, dans notre cas, elle est une femme.
Faire une flèche bas et vous trouverez le titre niveau 3 en anglais appelé:
Voice
Cela sera annoncé par notre lecteur d’écran NVDA comme:
titre niveau 3 Voice
Faire une flèche bas et vous trouverez une liste déroulante.
Faire plusieurs fois c : liste déroulante pour la trouver avec notre lecteur d’écran NVDA
Une fois trouvé notre lecteur d’écran NVDA nous dira:
cliquable liste déroulante réduit ouvre une liste Zephyr
puis appuyez sur la barre d’espace pour activer cette liste déroulante.
Ici, vous trouverez plusieurs voix en anglais pour tester, il existe des voix masculines et féminines.
Mais comme j’ai déjà essayé la première voix d’une femme annoncée ci-dessus par notre lecteur d’écran NVDA comme:
cliquable liste déroulante réduit ouvre une liste Zephyr
Pour ma part, je la laisserai tel quel.
Une fois la voix choisie, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Pour plus de détails sur les noms des voix disponibles, veuillez consulter les sections ci-après.
Maintenant, nous allons tester la Première voix choisie comme nous l’avons fait la première fois si vous vous rappelé.
Vous trouverez un bouton en anglais pour lire un texte en anglais avec la voix choisie au-dessus du nom de la voix, celui-ci s’appelle:
Play audio sample
Vous devez insister plusieurs fois pour que ce bouton soit affiché.
Vous devez faire deux appuis avec la barre d’espace sur le nom de la voix choisie.
Maintenant, nous allons changer le nom du Speaker 2
Si nous faisons une fois de plus flèche bas nous trouverons l’élément en anglais annoncé par notre lecteur d’écran comme:
hors de région bouton développé Speaker 2 settings
Si nous faisons une fois de plus flèche bas nous trouverons l’élément en anglais annoncé par notre lecteur d’écran comme:
Speaker 2 settings
région titre niveau 3 Name
Si nous faisons une fois de plus flèche bas nous trouverons l’élément en anglais annoncé par notre lecteur d’écran comme:
cliquable Speaker name
édition Speaker 2
Avec le lecteur NVDA rechercher ce champ d’édition en anglais en appuyant sur la touche
e : zone d'édition
puis appuyez sur la touche Entrée pour activer ce champ d’édition.
Une fois activé ce champ d’édition, vous pouvez sélectionner l’intégralité du texte avec Ctrl+a et supprimer ce texte avec la touche effacement (touche Supprimer).
Ce texte en anglais est annoncé par notre lecteur d’écran NVDA comme:
Speaker 2
Une fois ce texte en anglais supprimé dans ce champ d’édition, vous devrez écrire le nouveau nom de ce deuxième intervenant appelé en anglais Speaker 2
sans les deux points, dans notre cas nous avons choisi comme nom:
Paul
Une fois la saisie terminée, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Maintenant, nous choisirons la deuxième voix de cet intervenant, dans notre cas, il est un homme.
Faire une flèche bas et vous trouverez le titre niveau 3 en anglais appelé:
Voice
Faire une flèche bas et vous trouverez une liste déroulante.
Faire plusieurs fois c : liste déroulante pour la trouver avec notre lecteur d’écran NVDA
Une fois trouvé notre lecteur d’écran NVDA nous dira:
cliquable liste déroulante réduit ouvre une liste Puck
puis appuyez sur la barre d’espace pour activer cette liste déroulante.
Ici, vous trouverez plusieurs voix en anglais pour tester, il existe des voix masculines et féminines.
Comme je viens d’essayer cette deuxième voix de l’homme annoncé par notre lecteur d’écran comme:
cliquable liste déroulante réduit ouvre une liste Puck
et ça me convient je la laisserai tel quel.
Une fois la voix choisie, appuyez sur la touche “Échap” pour sortir du mode formulaire.
Pour plus de détails sur les noms des voix disponibles, veuillez consulter les sections ci-après.
Maintenant, nous allons tester la deuxième voix choisie comme nous l’avons fait la première fois si vous vous rappelé.
Vous trouverez un bouton en anglais pour lire un texte en anglais avec la voix choisie au-dessus du nom de la voix, celui-ci s’appelle:
Play audio sample
Vous devez insister plusieurs fois pour que ce bouton soit affiché.
Vous devez faire deux appuis avec la barre d’espace sur le nom de la voix choisie.
Maintenant que nous avons fini de changer le nom du Speaker 1
et du Speaker 2
et sélectionné les voix 1 et 2
Maintenant, nous devrons faire une manipulation comme nous l’avons fait la première fois si vous vous rappelé, c’est-à-dire ,lancer la conversion en utilisant le bouton appelé Run
, donc, voici les explications ci-dessous.
Lancer la conversion en utilisant le bouton appelé Run
Pour ce faire,avec le lecteur NVDA vous devrez chercher un bouton en anglais appelé:
Run
Notre lecteur d’écran NVDA nous dira:
Run bouton Run prompt
Faire plusieurs fois maj+b pour trouver ce bouton avec notre lecteur d’écran NVDA.
et faire Entrée sur lui.
Selon la quantité de texte inséré dans le champ d’édition la génération de celui-ci peut demander un certain temps. Donc, veuillez patienter…
De toute façon il va finir par arriver notre texte convertis en audio !
Une fois la génération terminée, l’audio du texte sera entendu dans notre langue, dans mon cas, le texte a été écrit à la base en français!
Comment télécharger le fichier audio résultant de la conversion du texte en voix avec: Google Speech Generation
?
Si ce texte parler vous convient, vous pouvez télécharger ce fichier audio en cliquant sur le bouton appelé:
afficher plus de commandes multimédias bouton de menu sous-Menu plus d'options
Notez que Ce bouton n’est pas affiché en utilisant Firefox.
C’est le problème que j’ai mentionné ci-dessus en utilisant Firefox.
Je pense que vous pouvez faire Ctrl+s pour enregistrer ledit fichier audio, je ne suis pas sûr. 😔
Une fois que vous avez fait Entrée sur ce bouton, appuyez sur Entrée sur l’élément appelé:
télécharger des contenus multimédias 1 sur 2
Puis allez dans le dossier appelé “Téléchargements”
Vous y trouverez le fichier appelé:
téléchargement.wav
Notez que au même niveau de ce bouton mentionné ci-dessus, vous aurez les boutons suivants:
- lire
- muet
Vous trouverez également un potentiomètre que vous informera de la durée audio, c’est-à-dire: la durée totale et le temps écoulé
Pour conclure la deuxième partie de ce tutoriel, dire qu’une fois votre fichier WAV téléchargé, ce fichier ne sera plus disponible.
Si vous souhaitez écouter l’échantillon audio de la conversion de mon texte en français en utilisant le deuxième bouton appelé Multi-speaker audio
, veuillez consulter la section correspondante ci-après.
Donner des instructions de style courte.
Ici, je vais mettre en premier l’instruction de style courte et en bas sa petite description correspondante:
dynamique
Lorsque vous utilisez cette instruction de style dans le texte écrit il est prononcé d’un ton dynamique.
mystérieux
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est raconté sur un ton mystérieux.
essoufflé
Lorsque vous utilisez cette instruction de style dans le texte écrit il est prononcé en étant essoufflé, en plein effort.
triste
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est prononcé d’un air triste.
rire
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est prononcé sur un ton jovial et rieur.
neutre
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est prononcé sur un ton neutre.
Autres instructions de style courte.
Ici, je vais mettre en premier l’instruction de style courte et en bas sa petite description correspondante:
accent marseillais
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est raconté avec un accent marseillais.
accent anglais
No audio generated
accent londonien
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est raconté avec un accent marseillais.
accent québécois
Lorsque vous utilisez cette instruction de style l’histoire écrite dans le texte nous est raconté avec un accent québécois.
chanson
Lorsque vous utilisez cette instruction de style Le texte écrit sera chanté par la voix choisie comme si c’était un chanteur.
rap
Lorsque vous utilisez cette instruction de style Le texte écrit sera chanté par la voix choisie comme si c’était un rapper.
Les 30 voix de Gemini 2.5 TTS.
Nous avons 13 voix féminines puis 1 voix neutre et 16 voix masculines de Gemini 2.5 TTS, donc, voici les noms de ces 30 voix répertoriées ci-dessous.
Les 13 voix féminines (Classé par ordre alphabétique contraire à la liste déroulante des voix):
Achernar
Aoede
Autonoe
Callirrhoe
Despina
Erinome
Gacrux
Kore
Laomedeia
Leda
Sulafat
Vindemiatrix
Zephyr
1 voix neutre (Classé par ordre alphabétique contraire à la liste déroulante des voix):
Pulcherrima
Les 16 voix masculines (Classé par ordre alphabétique contraire à la liste déroulante des voix):
Achird
Algenib
Algieba
Alnilam
Charon
Enceladus
Fenrir
Iapetus
Orus
Puck
Rasalgethi
Sadachbia
Sadaltager
Schedar
Umbriel
Zubenelgenubi
Single-speaker audio - Échantillon Voix masculine Charon-neutre générée avec Gemini 2.5 TTS
Single-speaker audio - Échantillon Voix féminine Zephyr-neutre générée avec Gemini 2.5 TTS
Multi-speaker audio - Échantillon Voix féminine et masculine Zephyr-Puck-dynamique-neutre générées avec Gemini 2.5 TTS
Informations Complémentaires.
Grâce aux modèles text-to-speech avancés comme Gemini 2.5, il est désormais possible de générer des discours fluides et personnalisés pour des usages variés, de l'assistance virtuelle à la création de contenu.
Ces voix et la génération de ces dialogues sont les plus réalistes que nous ayons pu connaître en matière de voix TTS.
Contrairement aux anciennes synthèses vocales robotisées, ces modèles modernes utilisent des architectures avancées comme les réseaux de neurones pour produire des voix riches en émotions, avec des intonations naturelles et même des accents régionaux. Ils apprennent à partir d'heures d'enregistrements vocaux pour capturer les subtilités du langage humain, permettant des sorties audio personnalisables selon le contexte.
Liens utiles.
Je suis tombé par hasard lors de la recherche d'informations sur les voix et les instructions de style et j'ai trouvé une perle rare et cela vaut la peine de faire une petite publicité au blog de Ronan (Data Engineer) ℹ
Et c'est pourquoi je vous dis que sur le blog de Ronan Vous trouverez un article très bien décrit appelé:
Mes premières expérimentations avec Gemini TTS
Sur ce même blog vous avez aussi des:
Exemples de voix générées avec Gemini 2.5 TTS : style dynamique
Et de nombreux échantillons de voix avec les autres styles mentionné ci-dessus.
Source de cette info:
Le blog de Ronan | Data Engineer•Ronan Maron
Merci encore à lui d'avoir publier un article dédié à Gemini TTS où nous avons trouvé beaucoup de choses très intéressantes qui a servies Comme support lors de la rédaction de ce billet avec les informations qui nous manquaient. 🤝
Et enfin je tiens à remercier aussi mon ami Peter Reina pour avoir diffusé ces informations sur son blog en espagnol qui m'ont servi énormément à m'inspirer pour faire ce magnifique tutoriel appelé Génération audio native de Google AI Studio en utilisant Gemini 2.5 et donc le pouvoir le partager avec vous tous! (clap)
Vous pouvez consulter la source du post en espagnol à partir du lien ci-dessous.
Gemini 2.5 Speech Generation, Voces (IA) super realistas!
Vous pouvez utiliser le lien ci-dessous pour visualiser la video sur YouTube.
🎙️ Gemini 2.5 Speech Generation, Voces (IA) super realistas!
Lien direct :
https://www.youtube.com/watch?v=On4ja9Xi6vo
Et finalement, vous pouvez cliquer sur le lien ci-dessous pour consulter son blog en espagnol.
TecnoConocimientoAccesible
Si buscabas un blog con tutoriales, programas, tiflotecnología y mucho más, ¡Éste es tu blog!
Mille merci à notre ami Peter Reina pour l'avoir partagé avec nous tous! :)
Voilà c'est fini, 🔐
Donc, je pense en avoir fait le tour sur l'utilisation du service appelé Génération audio native de Google AI Studio en utilisant Gemini 2.5 que je voulais aborder sur ce post. ✍
Profitez pleinement de ce fantastique service appelé Génération audio native fourni par Google qui continue de se développer en question d'intelligence artificielle. :)
J'espère que vous obtiendrez des résultats satisfaisants, ce sera sûrement le cas. 😉
À la proch sur un autre post!
@+
Rémy Ruiz (BlindHelp 🇫🇷)
Nous espérons vous revoir bientôt sur le
Blog de BlindHelp!
ou sur votre nouveau espace via GitHub:
BlindHelp.github.io
commentaires
Ajouter un commentaire sur GitHub