Sprachgesteuerte Aufzeichnung für IoT

Wer ein kleines Gerät per Sprache steuern will, braucht vor allem eines: stabile Erkennung ohne Daueraufzeichnung und ohne Fehlstarts. In diesem Beitrag zeige ich eine praxistaugliche Lösung, die lokal läuft, mit einem dynamischen Schwellenwert arbeitet und Sequenzen automatisch startet und wieder stoppt. Der Fokus liegt auf Funktion und Alltagstauglichkeit, nicht auf Internet.

Bemerkenswert: die Transkription hat vor dem Treshold die möglichkeit sauber einzusteigen und auch anschliessend sauber zu beenden. Wir haben hier nicht die ersten Silben verschluckt, sondern ganze Worte, was die Qualität perfektioniert.

Ziel

Kurze Sprachaufgaben zuverlässig erfassen und als Text ablegen. Alles offline möglich. Ideal für Edge Geräte, Werkstatt PC, Mini Server oder einen stillen Bürorechner. Die Lösung passt zum TB-Software Stil der kompakten Projektposts und How-tos. TB-Software

So funktioniert es im Betrieb

Start über start_voice_recorder.bat.
Erst einige Sekunden ruhig bleiben. Das System kalibriert das Grundrauschen im Raum.
Sprich normal. Die Aufnahme startet erst, wenn deine Stimme klar über dem gemessenen Basispegel liegt.
Kurze Laute wie ein einzelnes „hä“ werden ignoriert. Ein vollständiger Satz wie „Hallo wie geht es dir heute“ wird erfasst.
Nach etwa fünf Sekunden Stille stoppt die Aufnahme automatisch.
Ergebnis findest du im Ordner log: Audio als MP3 und Transkript als TXT sowie JSON.

Warum dieser Ablauf robust ist

Dynamischer Schwellenwert passt sich dem Raum an. Leiser Keller, lautes Büro, wechselnde Lüfter.
Voraufzeichnung puffert die letzten zwei Sekunden. Nichts vom Satzanfang geht verloren.
Ruhefenster verhindert Zwischen-Auswertungen während Denkpausen.
Segmentgrenze nach Stille. Jedes Kommando wird sauber abgeschlossen und kann erst dann verarbeitet werden.

Typische Einsätze

Notizzettel am Werkplatz.
Kurze Kommandos für ein Heimautomations-Gateway.
Bedienung im Labor, wenn die Hände voll sind.
Protokolle während Tests, ohne Cloud Zwang.

Qualität in der Praxis

Die Erkennung läuft lokal und braucht kein Internet. Online Modelle verstehen oft noch etwas mehr, aber für klare Sätze in normalem Abstand reicht die Qualität in vielen Umgebungen gut aus. Entscheidend ist das Mikrofon und die Nähe zur Stimme. Je näher, desto weniger Raumanteil, desto sauberer das Transkript.

Tipps für stabile Ergebnisse

Mikrofon 10 bis 20 cm vor den Mund.
Leise Tastaturen und Lüfter helfen.
Kurze, eindeutige Sätze sprechen.
Bei sehr halligen Räumen ein Headset nutzen.

Dateien und Logs

log/audio/…mp3 enthält die Aufnahme.
log/transcriptions/…txt ist der reine Text.
log/transcriptions/…json führt Details wie Zeitstempel.

Grenzen

Sehr leise Sprecher oder starke Störgeräusche senken die Trefferquote.
Extrem kurze Einwortlaute werden absichtlich nicht erfasst, damit das System ruhig bleibt.