ESP32 Vaquita DSPG

Bonjour à tous,
Voila un moment que j'ai acheté un kit complet ESP32-Vaquita-DSPG mais la seule façon que je trouve de l'utiliser est d'en faire un énième "Alexa" ou "Google Home" moi ce que je veux, c'est avoir mon indépendance et juste utiliser mon serveur personnel qui tourne depuis plus de 25 ans 24/24 7/7 et qui me sert pour ma domotique. Bien entendu ce serveur n'est pas le même depuis 25 ans, je l'ai souvent changé, et amélioré, mais là n'est pas le sujet.
Je voudrai ne plus avoir à passer par les serveurs d'Amazon ou Google (j'ai déjà 2 Alexa et 3 Google)
Je veux juste mon indépendance.
Le problème c'est que je ne sais pas par quel bout le prendre, la programmation n'est pas un frein pour moi, mais passer par un SDK que je ne maitrise pas ne m'enchante pas, avez vous essayé quelques choses dans ce domaine et pouvez vous m'éclairer sur ce point?
Toutes idées ne pourraient que me faire avancer.
Merci pour votre aide.

dans la description de cette carte ils disent

The ESP32-Vaquita-DSPG development board, together with Alexa Voice Service (AVS) for AWS IoT , provides a turnkey solution to easily create Alexa built-in IoT devices, which features voice enablement and AWS IoT cloud connectivity

et

1.4.3 Software Setup

While this board can be used for variety of applications, one of the primary applications is to support "Alexa Voice Service (AVS) for AWS IoT" use cases. You can download Espressif's AVS for AWS IoT SDK and follow the instructions.

Elle est donc quand même très spécifique... Que voulez vous faire spécifiquement avec votre propre serveur ? Pourquoi ne pas acheter un simple ESP32 si vous n'avez pas besoin de toutes les fonctions liées à la commande vocale (supposition) ?

c'est une carte dédié au commandes vocale alexa AWS, donc si tu veux eviter de passer par amazon ou google, c'est raté.
je trouve que ton sujet, manque un peu de precision,

moi d'apres ce que je comprends tu cherches une alernative? tu veux eviter d'utiliser des commandes vocaux du type amazon ou google, pour garder tes données perso.

Il y avait jp Encause qui avait fait quelque chose de bien avec ses commandes vocal S.A.R.A.H.

Autrement il y a Mycroft qui est open source qui s'utilise sur raspberry.

Bonjour

ESpressif sort une nouvelle variante d'ESP32 'boostée' pour l'IA : ESP32**-S3**

Cette variante n'est pas encore prise en charge par l'extension ESP32 pour IDE Arduino (limitée actuelle ement aux ESP32, ESP32-S2 et ESP32-C3)

Espressif signale l'arrivée prochaine d'un kit (ESP32-C3-BOX) pour exploiter la commande vocale , avec ou sans Alexa si je comprend bien

A suivre....peut être ici une solution à venir pour satisfaire ce besoin compréhensible :

Je voudrai ne plus avoir à passer par les serveurs d'Amazon ou Google (j'ai déjà 2 Alexa et 3 Google)
Je veux juste mon indépendance.

Merci à tous pour toutes vos réponses.
Pour infos, je veux effectivement ne plus utiliser les box Amazon et Google pour mes commandes domotique, déjà que je suis obligé de payer un abonnement à IFTTT pour pouvoir le faire, je voudrai me démarquer de tout cela et être autonome.
Je ne savais pas qu'il va bientôt y avoir des ESP32 boosté pour l'IA ni que certains seront dédiés à la reconnaissance vocale, c'est une bonne nouvelle.
Néanmoins, je pensais que l'ESP32 Vaquita étant pourvu des interfaces audio (micro, HP, décodage etc..) aurait pu être détourné de leur utilisation avec les grands groupe et servir via une certaine programmation. Je vais quand même fouiller, parce que un processeur et des interface ce n'est qu'affaire d'adresses à connaitre et protocole a utiliser, non? je lache rarement le morceau :wink:
Merci encore pour votre aide.
Si vous avez des suggestions je suis toujours preneur.

le diagramme technique des couches logicielles

montre qu'il y a des modules utilisables sous l'ESP Voice Assistant. Donc oui, il y a sans doute des choses que vous pouvez faire, mais il me semble que le SDK audio ne fait que la reconnaissance du mot clé (les " Hey google", etc) qui active la connection de l'unité au service cloud vers lequel il va ensuite envoyer un stream audio qui sera décodé côté serveur.

le GitHub contient du code source mais aussi de nombreux .a (archives précompilées) qui sont donc obscures...

@lesept qui a déjà fait quelques réalisations avec I.A saura sans doute indiquer des pistes pour une reconnaissance vocale locale (sans serveur) avec un vocabulaire perso .........avec un matériel adapté comme semble l'être celui de l'ESP32 Vaquita

voir ce lien (I.A sur ESP32 pour une détection de ronflements : https://forum.arduino.cc/t/esp32-intelligence-artificielle-et-ronflements/646512 et ici sur Instructables : https://www.instructables.com/Snore-O-Meter/

En fouiillant un peu plus on peut trouver un Framework d'Espessif pour de la reconnaissance vocale locale,
par exemple içi : https://www.espressif.com/en/solutions/audio-solutions/esp-skainet/overview

ainsi que d'autres cartes de leur cru : LyraT, Korvo (ilas paraissent plutôt actif pour ouvrir aux divers ESP32 ce type de marché....)

EDIT : Un moteur de recherche montre diverses réalisations d'Alexa like' sur ESP32 comme celles ci avec TensorFlow Lite
https://www.youtube.com/watch?v=re-dSV_a0tM
https://www.youtube.com/watch?v=cp2qRrhaZRA

Grand très grand merci à tous, vos remarques sont très intéressantes et me mettent sur une bonne piste, merci beaucoup.

Merci de la pub Alain ! :wink:
J'ai juste fait quelques essais pour voir ce qu'on peut programmer sur un ESP32 : c'est sur Github

J'ai essayé de pousser jusqu'à la reconnaissance vocale, mais je pense que le perceptron n'est pas la bonne architecture de réseau de neurones. Je voulais faire un peu de traitement du son avant de l'entrer dans le réseau, mais je n'ai pas encore trouvé de solution efficace...

Je serais tenté de proposer deux autres plateformes:

Chez SEEED, ce produit semble intéressant: il est programmable en micropython, il faut éventuellement vérifier qu'il est compatible de l'IDE Arduino

Le Kendryte K210 est le composant accélérateur IA.

Un code de speech processing ici : pas d'explication donc peut-être pas facile à utiliser, c'est surtout pour montrer qu'il y a une communauté IA qui développe sur les produits SEEED.

J'ai pour le moment commandé des micros I2S (au moins 15jours d'attente) et je vais essayé avec juste un ESP32 pour voir comment aborder la chose.
Je mets le Vaquita de coté pour le moment, et je vais explorer les pistes très riches que vous m'avez fourni.
Merci à tous.

espressif va bientot sortir sa box qui est basé sur un esp-S3, avec voice control online/ offline GitHub - espressif/esp-box: The ESP-BOX is a new generation AIoT development platform released by Espressif Systems.

Ca serait une bonne base de partir dessus peut etre...

cf lien du message #4 , avec dernièrement un test de reconnaissance vocale dans un 'bruit de fond' intense....

ton lien github @hazerty565 montre que les choses sérieuses arrivent !!( pas encore compatible IDE Arduino fautre de prise en charge de la version -S3 de l'ESP32 à l'heure actuelle)

A première vue la customisation du vocabulaire, à l'aide d'un smartphone, parait réalisable
https://github.com/espressif/esp-box/blob/master/docs/getting_started.md#voice-assistance-control-and-customization

je pense que cette carte et ses clones auront un succés de même ampleur de celui de l'ESP32-CAM

Merci pour vos liens très intéressants, je ne pouvais que penser qu'un jour, au vu de l'avancé des processeurs grand public comme l'ESP32 que nous commencerions à voir ce genre de développement.
Je pense même que les fabricants de processeurs vont redoubler d'effort et nous mettre sur le marché des processeurs encore plus performant voir dédié avec décodage intégré de la parole.
Bien entendu il est encore trop tôt pour l'espérer, mais j'ai grand espoir à la vitesse où se fait l'électronique de nos jours.
Merci encore, pour l'heure j'attends mes commandes et je vais tester certaines choses avant de me lancer vraiment dans la domotique autonome. Je fais de la domotique autonome (j'ai toujours tout développé) jusque là en dehors d'être maintenant tributaire de Google ou Amazon et autres clones. Je veux revenir à mon indépendance, sans dépendre de grands groupes.
Pour l'ESP32-CAM j'ai déposé ma version française (depuis plusieurs mois) sur la plateforme Arduino, ainsi que la gestion d'écran tactile capacitif (librairie).
Merci beaucoup à vous, cela me fait bien avancer.

il existe des puce dédié a l'AI off line deja( pas besoin d'aller dans le cloud)

je pense que, si tu fait un code maison personnalisé avec un esp32, tu peux te passer de google, amazon ect..., la suite, il faut juste faire cohabiter plusieur protocol entre eux, pour qu'ils puisse communiquer ensemble, entre la lumiere, detecteur ect...

Oui je suis d'accord avec toi, car c'est déjà ce que je fais pour plusieurs objets connectés que j'ai conçu, j'utilise même MySQL en liaison avec mon serveur pour certains objets.
Ce que je pense faire pour le projet de box vocale actuel, c'est utiliser un ESP32 un micro I²S et un décodeur mp3, comme ça j’envoie à mon serveur (une appli qui écouterait sur un certain port) une commande vocale, et je pourrai retourner une réponse du serveur sous forme mp3 que pourra être dit par le décodeur mp3 de l'ESP32. Enfin ça c'est l'idée de départ, mais avec l'enrichissement de ce qui s'est dit ici, il se pourrait que j'améliore encore cela.
Quoi qu'il en soit, l'ESP32 n'aura pas un boulot monstre afin de le rendre rapide et réactif.
Merci beaucoup.

Bonjour
L'ESP32 peut faire lui même le décodage mp3.....(on a évoqué ici des réalisations de radio Web dans ce sens)

Oui, je l'ai moi même expérimenté, mais je préfère utiliser un petit circuit dédié, ce qui me permettra de faire faire autres choses à l'ESP32, il aura comme ça plus de temps, surtout que les circuits dédiés font souvent plusieurs formats de décodage et ça peut quelques fois aider.
Mais merci encore, je prend et je mets l'idée de coté.