Spracherkennung Python: Wie übersetze ich Sprache in Text?



Dieser Blog behandelt das Konzept der Spracherkennung in Python mit einem Beispielprogramm, das Sprache mithilfe der Spracherkennung in Text übersetzt.

Sprache ist weltweit das häufigste Kommunikationsmittel. Der größte Teil der Weltbevölkerung ist auf Sprache angewiesen, um miteinander zu kommunizieren. Angenommen, wir erstellen ein Modell und anstelle eines schriftlichen Ansatzes soll unser System auf Sprache reagieren. Dies wird ziemlich schwierig und erfordert die Verarbeitung vieler Daten. Ein Spracherkennungssystem überwindet diese Barriere, indem es Sprache in Text übersetzt. In diesem Blog werden wir die Spracherkennung durchgehen Modul in Python . Hier ist die Liste derselben:

Wie funktioniert die Spracherkennung?

Das Spracherkennungssystem übersetzt die gesprochenen Äußerungen grundsätzlich in Text. Es gibt verschiedene Beispiele aus der Praxis für Spracherkennungssysteme. Zum Beispiel Siri, der die Sprache als Eingabe nimmt und in Text übersetzt.





Der Vorteil der Verwendung eines Spracherkennungssystems besteht darin, dass es die Barriere der Alphabetisierung überwindet. Ein Spracherkennungsmodell kann sowohl dem gebildeten als auch dem ungebildeten Publikum dienen, da es sich auf gesprochene Äußerungen konzentriert.

Mit einem Spracherkennungssystem können wir auch alle gefährdeten Sprachen auf der ganzen Welt inventarisieren. Während es ziemlich faszinierend und überhaupt nicht komplex aussieht, steht ein Spracherkennungssystem vor vielen Herausforderungen.



Herausforderungen bei der Spracherkennung System

Ein Spracherkennungssystem wird schwierig herzustellen, weil wir so viele Variabilitätsquellen haben, wenn es um Sprache geht.

Sprechstil

Jeder Einzelne hat einen unterschiedlichen Sprechstil, auch mit Akzenten. Wie wir alle wissen, haben wir unterschiedliche Akzente, um auch Englisch zu sprechen. Es gibt amerikanisches Englisch, britisches Englisch und so viele andere Akzente, wenn es darum geht, die häufigste Sprache der Welt zu sprechen. Die Aussprache erschwert es einem Spracherkennungssystem auch, die Sprache insgesamt zu übersetzen.



Umgebung

Die Umgebung fügt dem System auch viele Hintergrundgeräusche hinzu. Ein isolierter Raum im Vergleich zu einem Auditorium weist eine große Variabilität der Hintergrundgeräusche auf. Sogar das Echo kann dem System ebenfalls viel Rauschen hinzufügen.

Lautsprechereigenschaften

Die Stimme eines alten Menschen ist möglicherweise nicht die gleiche wie die eines Säuglings. Die Eigenschaften der Sprache einer Person hängen von vielen Faktoren ab, einschließlich der Härte und Klarheit.

Sprachbeschränkungen

Einige gesprochene Äußerungen haben möglicherweise keine brauchbare Bedeutung, wenn es um die Übersetzung geht.

Nach Überwindung dieser Herausforderungen ist es für jedes Spracherkennungssystem ziemlich erreichbar, Sprache in Text zu übersetzen. Nachdem wir nun wissen, wie die Spracherkennung funktioniert, schauen wir uns etwas anderes an die für die Spracherkennung in Python verfügbar sind.

Pakete zur Spracherkennung in Python verfügbar

  • apiai

  • Spracherkennung

  • Google_speech_cloud

  • Assemblyai

  • Pocketsphinx

  • Watson_developer_cloud

  • Weiß

Wir werden die Details des SpeechRecognition-Pakets in diesem Blog durchgehen und einen Blick in die Vergangenheit werfen, um zu verstehen, wie sich Spracherkennungssysteme im Laufe der Jahre entwickelt haben.

Wofür wird die Sas-Programmierung verwendet?

Der allererste Prototyp der Spracherkennung war tatsächlich ein Spielzeug namens Radio Rex das kam um die 1920er Jahre. In einem Hundehaus saß ein Hund, der heraussprang, sobald jemand das Wort Rex aussprach.

Das einzige Problem mit dem Modell war, dass die Feder an einem Elektromagneten befestigt war, der gegenüber Energie im Bereich von etwa 500 Hz empfindlich war. Da es sich lediglich um einen Frequenzdetektor handelt, kann es auch als Spracherkennungsmodell bezeichnet werden.

Im Jahr 1962 kam IBM mit einem Schuhkarton Modell, das einzelne Wörter erkennen und auch einige arithmetische Operationen ausführen konnte.

Dann kam HARPYIE von der CMU, die in der Lage war, verbundene Sprache aus einem 1000-Wörter-Vokabular zu erkennen. Um die 1980er Jahre begannen die Menschen, statistische Modelle zu verwenden, und eines der am häufigsten verwendeten Paradigmen für maschinelles Lernen war das Hidden-Markov-Modell.

Nach der Einführung tiefer neuronaler Netze arbeiten die meisten Spracherkennungsmodelle in neuronalen Netzen. Die Möglichkeiten sind mit den neuronalen Netzen unvorstellbar, der Wortschatz kann bis zu 10.000 Wörter und mehr umfassen.

Wie installiere ich SpeechRecognition in Python?

Um das SpeechRecognition-Paket Python zu installieren, führen Sie den folgenden Befehl im Terminal aus, und es wird auf Ihrem System installiert.

Installation-Spracherkennung Python-Edureka

Was ist ein Javascript-Ereignis?

Ein anderer Ansatz hierfür kann das Hinzufügen des Pakets aus dem Projektinterpreter sein, wenn Sie es verwenden

Das Paket hat eine Recognizer-Klasse, in der im Grunde die Magie geschieht. Es ist im Grunde eine Klasse, die verwendet wird, um die Sprache zu erkennen. Es folgen sieben Methoden, mit denen verschiedene Audioquellen mithilfe verschiedener APIs gelesen werden können.

  • erkennen_bing ()
  • erkennen_google ()
  • erkennen_google_cloud ()
  • erkennen_houndify ()
  • erkennen_ibm ()
  • erkennen_wit ()
  • erkennen_sphinx ()

Jetzt kann Recogn_Sphinx verwendet werden, um das Spracherkennungssystem auch offline auszuführen. Es erfordert die Installation von Pocketsphinx.

Spracherkennung als sr #instance der Erkennungsklasse importieren r = sr.Recognizer ()

Eingaben von Mikrofonen entgegennehmen

Um die Mikrofone verwenden zu können, müssen wir auch das Pyaudio-Modul installieren. Wir verwenden die Mikrofonklasse, um die Eingabesprache vom Mikrofon zu erhalten, anstatt einer anderen Eingabemethode wie einer Audiodatei.

Für die meisten Projekte können wir die Standardmikrofone verwenden. Wenn Sie jedoch das Standardmikrofon nicht verwenden möchten,Sie können die Liste der Mikrofonnamen mit der Methode list_microphone_names abrufen.

Um den Eingang vom Mikrofon zu erfassen, verwenden wir die Listen-Methode.

Spracherkennung als sr r = sr.Recognizer () mit sr.Microphone () als Quelle importieren: audio = sr.listen (source)

Wie installiere ich Pyaudio in Python?

Um Pyaudio in Python zu installieren, führen Sie den folgenden Befehl im Terminal aus, oder fügen Sie bei Verwendung von pycharm das Paket aus dem Projektinterpreter in den Einstellungen hinzu.

Anwendungsfall

Wir werden ein Programm erstellen, das das Spracherkennungsmodul in Python verwendet, um Sprache zu erkennen und Folgendes auszuführen:

  1. Konvertieren Sie die Sprache in Text
  2. Öffnen Sie eine URL mit dem Webbrowser-Modul
  3. Übergeben Sie eine Abfrage mithilfe der Spracherkennung, um eine Suche in der URL durchzuführen

Es folgt das Programm für die obige Problemstellung:

Sprachanerkennung als sr importieren Webbrowser als wb importieren r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () mit sr.Microphone () als Quelle: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (Quelle) wenn 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' mit sr .Microphone () als Quelle: print ('Suche deine Abfrage') audio = r2.listen (Quelle) try: get = r2.recognize_google (Audio) print (get) wb.get (). Open_new (url + get) ausgenommen sr.UnknownValueError: print ('error') außer sr.RequestError als e: print ('failed'.format (e)) wenn' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'mit sr.Microphone () als Quelle: print (' Suche nach einem Video ') audio = r2.listen (Quelle) try: get = r1.recognize_google (Audio) ) print (get) wb.get (). open_new (url + get) außer sr.UnknownValueError: print ('konnte nicht verstehen') außer sr.RequestError als e: print (konnte keine Ergebnisse erhalten'.format (e) )

Sie erhalten die Ausgabe so, wie sie im Bild gezeigt wird. Wenn Sie edureka sagen, werden Sie aufgefordert, die Abfrage anzugeben, nach der Sie in der edureka-URL suchen möchten, die wir in die URL-Variable geschrieben haben. Wenn Sie Python sagen, wird die folgende Webseite im Browser geöffnet.

In diesem Blog haben wir diskutiert, wie wir die Spracherkennung in Python verwenden können, um Sprache mithilfe des Spracherkennungspakets in Text zu übersetzen. ist das Gebot der Stunde für Konzepte wie Spracherkennung oder Objektdepression geworden Das bietet Spracherkennungssystemen unvorstellbare Möglichkeiten, mit denen wir enorme Sprachdaten trainieren und testen können, um ein System aufzubauen für tiefe neuronale Netze, um Ihre Fähigkeiten zu beherrschen und Ihr Lernen anzukurbeln.

Haben Sie Fragen? Erwähnen Sie sie in den Kommentaren, wir werden uns bei Ihnen melden.