le diagramme technique des couches logicielles
montre qu'il y a des modules utilisables sous l'ESP Voice Assistant. Donc oui, il y a sans doute des choses que vous pouvez faire, mais il me semble que le SDK audio ne fait que la reconnaissance du mot clé (les " Hey google", etc) qui active la connection de l'unité au service cloud vers lequel il va ensuite envoyer un stream audio qui sera décodé côté serveur.
le GitHub contient du code source mais aussi de nombreux .a (archives précompilées) qui sont donc obscures...