Commande vocale

(Re-)Bonjour.
Cela fait plusieurs années (!) que je cherche sans succès "le module parfait" de reconnaissance vocale, de préférence en Français et pouvant être utilisé aussi avec un système microcontrôleur "perso" programmé en GCBasic. Les systèmes à apprentissage ne fonctionnent plus après un certain temps, la voix ayant changé, et/ou alors sont trop sensibles au bruit ambiant (Elechouse V3). Les systèmes sans apprentissage ne reconnaissent la plupart du temps que l'Anglais et le Chinois, le "moins pire" étant le VC-02. Le Easy-VR3 avec la licence (chère) oblige à répéter. Un système allemand (prétendument 30 langues et cher) est trop lent. Il y a aussi le Kittenbot ASR qui permet un système de menus hiérarchisés avec des Leds de 4 couleurs et qui a au moins l'avantage de présenter la commande vocale sous son vrai jour, c'est-à-dire ... parfaitement ridicule ! Quant à une solution "online" sur Google, j'ai testé dans le moteur de reconnaissance inclus dans la recherche. "Les poules du couvent couvent" s'est transformé en "Les BOULES ..." Et comme je veux commander un train électrique, le mot "trémies" s'est transformé successivement en Eddy, crédit et Fredy. Quelqu'un a-t-il une idée géniale ? Je ne veux pas utiliser de smartphone que premièrement je n'ai pas et qui deuxièmement va utiliser une solution "online", voir plus haut. Merci d'avance pour toute suggestion. Sinon au pire je vais rester à la solution manuelle (boutons ou écran tactile), au moins celle-ci fonctionne !

Post mis dans la mauvaise section, on parle anglais dans les forums généraux, je viens de déplacer le post dans la section francophone.

Merci de prendre en compte les recommandations listées dans "Les bonnes pratiques du Forum Francophone".

Il n’y a pas de solution magique à pas cher. La reconnaissance du langage naturel multi-locuteur nécessite de la puissance de calcul et souvent un ensemble de micros et des algos gourmands pour filtrer le bruit avant d’envoyer le son dans le module de reconnaissance de la parole.

Pour simplifier les systèmes peu cher fonctionnant par mots clés - quelques « sons » en apprentissage mono locuteur et dans une ambiance sonore donnée (elle fera partie de la signature d’entraînement) et il faut que ces mots soient suffisamment différents entre eux. Le système de traitement du signal va analyser les sons et vous retourner celui dont la signature est le plus proche avec un facteur de confiance.

Donc si vous voulez une bonne reco soit vous mettez en frontal une solution du marché qui fait le job (moi j’ai des HomePods dans la maison ou mon iPhone / iPad / Mac et je me sers de HomeKit pour recevoir les ordres en utilisant HomeSpan sur ESP32 - la même chose doit exister avec Alexa ou Google) soit effectivement vous partez sur une interface tactile (boutons, écrans etc).

Merci pour votre réponse, qui a le mérite d'être au moins franche ... Malheureusement le bruit de fond n'est pas constant, il y a près du pupitre une fête foraine avec 3 manèges qui démarrent et s'arrêtent sous le contrôle d'un ATTiny13 (Photo ici encore sans personnages). C'est bien ce que je craignais, le système qui donne l'image la plus réaliste de la chose :zany_face: est au final Kittenbot ASR avec sa voix d'anime-manga et son "réveil" par "Hello Kittenbot" ou "Hello Kitty" :partying_face: ! Par contre, au vu de la démonstration domotique, il semble assez insensible aux bruits ambiants variables. Donc je vais certainement me "venger" de toutes mes dépenses perdues avec deux groupes de 4 Digitasts pour la commande manuelle et des Leds de couleur :skull_and_crossbones:. Ou alors, si malgré tout j'arrive à faire (par hasard) fonctionner un module à apprentissage, un système graphique à 2 niveaux et 4 commandes "internationales" : GA-BU-ZO-MEU (pour les "anciens" qui se souviennent encore :grin: ) et les dessins correspondants ...

Ah les shadoks !!

Il serait peut-être possible de faire la reco vocale sur smartphone (via MIT App Inventor) et d'envoyer en Bluetooth une instruction à l'Arduino, non ?

Voir ici peut-être :

Merci, mais voir vers la fin de mon premier post ... De plus, le réseau se trouve dans une pièce de la cave en béton armé et une connaissance a essayé, les portables ne fonctionnent pas (cage de Faraday) !

Bonjour makeshift-job

Peut-être un produit M5Stack?
image

Cordialement
jpbbricole

Je l'ai essayé, la description ressemble fortement à la prochaine étape du circuit utilisé dans le VC-02 ; sauf que le site de configuration rend fou, avec le Chinois. Et quand j'avais enfin réussi, je l'ai branché sur mon adaptateur USB-UART pour upload, un voyant a clignoté et rien ne s'est passé ...

A la place des Shadoks, je pourrais utiliser 1-2-3-4 qui font partie du vocabulaire original du M5. Par contre, question à jpbbricole : avec la configuration d'usine, savez-vous quelle est la durée d'activation après "réveil" ? Et si c'est à durée limitée, y a-t-il un feedback série quand le module se désactive à nouveau ? Quelque part ce module me paraît sympathique, le "Hi, M5" rappelant de vieux souvenirs des années 60, l'ordinateur fou M5 du Dr. Daystrom dans "Star Trek" :skull_and_crossbones: ...

Bonjour makeshift-job

Je n'ai jamais utilisé ce module, je l'ai proposé par ce que je suis "fan" du matériel M5, qui est d'une rare qualité tant du point de vue hard que de la documentation.
J'ai demandé à l'IA de répondre à tes questions, il en ressort, entre autre, que ce module est opérationnel en permanence.

Bonne journée
jpbbricole

Merci ... Il y a effectivement deux solutions : soit la méthode expérimentale (surtout qu'il n'est pas très cher), soit le service technique. Je crois que je vais essayer la seconde solution, surtout que je n'ai rien trouvé dans les data concernant une activation par UART (pas plus que l'activation hardware du VC-02, dont le fabricant ne m'a au passage jamais donné de renseignements en ce sens). Par contre, je crains que le chip ne soit le successeur de celui du VC-02 avec seulement plus de mémoire, et que la fiabilité ne soit donc pas beaucoup meilleure pour les chiffres : celui-ci rejette souvent dans ce cas et ne fonctionne bien qu'avec des commandes plus longues, d'au moins 2 mots (comme avec Alexa :skull_and_crossbones:) mais alors, hormis pour un effet de démonstration, les commandes manuelles deviennent plus efficaces :joy:.

Bonjour makeshift

Comme j'avais une commande chez M5, j'en ai profité pour commander un de ces modules, vu que j'ai également un projet en cours commandé par la voix.

A+
jpbbricole

Et moi je vais essayer de les contacter via mon adresse gmail, celle de "laposte" rejette en particulier tous les messages venant de AI-Thinker (VC-02)

Et voilà ...

Dear Madam, Dear Sir.

  1. How long does the module stay awaken ? Or does it stay permanently ? If there is a way to perform this, it would be fine !

  2. Somebody said that the wake-up function can be performed via UART, but I couldn't find anything in the data.

  3. Is there a way to switch the module to "silent" mode, i.e. without spoken answers ?

Thanks for any answers. Yours sincerely ... (from France)

:+1:

pas très important mais si vous n'avez pas encore shooté le mail

➜ "How long does the module stay awake" — ici on utilise l'adjactif

sinon ce serait awoken qui est le participe passé du verbe to awake mais il s’emploie dans des temps composés ou des constructions passives :
The module has awoken ➜ Le module s'est réveillé.


  • How long does the module stay awake? Or does it remain active permanently? If there’s a way to configure this, that would be great!

  • Someone mentioned that the wake-up function could be triggered via UART, but I couldn’t find any information about it in the documentation.

  • Is there a way to switch the module to a "silent" mode, meaning without spoken responses?


Sorry, Shakespeare will forgive me ...
A jpbbricole : Avez-vous essayé le VC-02, pas cher chez Ali* (éviter DigiKey : plus du double) et très facile à "customizer" ... quand le serveur n'est pas planté et fait des time-outs (record : 4 jours), il y a plusieurs tutos sur le net. Ou, pour des applications spécifiques avec le vocabulaire intégré, le Kittenbot ASR (plus cher mais qui marche bien, voir ici ... pour qui supporte sa voix, sinon couic hardware et timer externe, matériel ou logiciel, pour la désactivation ! ). Eviter le Easy-VR3 avec QT2SI (cher, lent et pas très fiable) ou un autre système allemand (30 langues), cher, ne fonctionne qu'en 3,3 V et lent : J'ai "donné" :grin: ! Quant au Elechouse Simple VR, il n'a pas de seuil ajustable en Anglais (uniquement en Chinois) et est très sensible aux bruits ambiants (mes manèges) qui le déclenchent intempestivement.

:wink:

Surtout si ce sont des chinois qui lisent !

Bonjour makeshift

Je n'ai, actuellement, aucune expérience de reconnaissance de la parole. hormis avec Android par MIT App Inventor.

Je ferais mes débuts avec le module M5 que je connecterai sur un ESP32.

A+
jpbbricole