Forstå talegjenkjenning

Forstå talegjenkjenning

Tenk deg at du sitter avslappet i sofaen og bare bestiller datamaskinen eller den bærbare datamaskinen eller mobiltelefonen din til å utføre enkle oppgaver som å skrive et brev eller utføre få kommandoer. Er det mulig?



Selvfølgelig er det, det er her talegjenkjenning kommer inn i bildet.


Gjennom definisjonen er det prosessen med å gjenkjenne menneskelig tale og dekodet den til tekstform.





Prinsipp

Det grunnleggende prinsippet om stemme gjenkjenning innebærer det faktum at tale eller ord som er uttalt av et hvilket som helst menneske forårsaker vibrasjoner i luften, kjent som lydbølger. Disse kontinuerlige eller analoge bølgene digitaliseres og behandles og dekodes deretter til passende ord og deretter passende setninger.

stemme gjenkjenning



Komponenter i et talegjenkjenningssystem

Så hva består et grunnleggende talegjenkjenningssystem av?

Komponenter i et talegjenkjenningssystem

  • En taleopptaksenhet : Den består av en mikrofon som konverterer lydbølgesignalene til elektriske signaler og en analog til digital omformer som prøver og digitaliserer de analoge signalene for å oppnå de diskrete dataene som datamaskinen kan forstå.
  • En digital signalmodul eller en prosessor : Den utfører behandling på det rå talesignalet som frekvensdomene konvertering, og gjenoppretter bare den nødvendige informasjonen etc.
  • Forbehandlet signallagring : Den forhåndsbehandlede talen lagres i minnet for å utføre ytterligere talegjenkjenningsoppgave.
  • Referanse Talemønstre : Datamaskinen eller systemet består av forhåndsdefinerte talemønstre eller maler som allerede er lagret i minnet, og skal brukes som referanse for samsvar.
  • Mønster matching algoritme : Det ukjente talesignalet sammenlignes med referansetalemønsteret for å bestemme ordene eller ordmønsteret.
Arbeid av systemet

La oss nå se hvordan hele systemet faktisk fungerer.


Arbeid av systemet

  • En tale kan sees på som en akustisk bølgeform, dvs. signalbærende meldingsinformasjon. Et normalt menneske med den begrensede bevegelsesgraden til hans / hennes artikulatorer (taleorganer) kan produsere tale med en gjennomsnittlig hastighet på 10 lyder per sekund. Den gjennomsnittlige informasjonshastigheten er omtrent 50-60 bits / sekund. Det betyr at faktisk bare 50 bits / sekund informasjon er nødvendig i talesignalet. Denne akustiske bølgeformen konverteres til analoge elektriske signaler av mikrofonen. Analog til digital omformer konverterer dette analoge signalet til digitale prøver ved å ta nøyaktige målinger av bølgen med diskrete intervaller.
  • Det digitaliserte signalet består av en strøm av periodiske signaler samplet med 16000 ganger per sekund og er ikke egnet til å utføre faktisk talegjenkjenning prosess da mønsteret ikke lett kan lokaliseres. For å trekke ut den faktiske informasjonen blir signalet i tidsdomene konvertert til signal i frekvensdomenet. Dette gjøres av den digitale signalprosessoren ved bruk av FFT-teknikk. I det digitale signalet, komponenten etter hver 1/100thsekund blir analysert og frekvensspekteret for hver slik komponent beregnes. Med andre ord er det digitaliserte signalet segmentert i små deler av frekvensamplituder.
  • Hvert segment eller frekvensgrafen representerer forskjellige lyder laget av mennesker. Datamaskinen utfører matching av de ukjente segmentene med den lagrede fonetikken til det aktuelle språket. Denne mønstermatchingen gjøres på 3 måter:

Ved hjelp av en akustisk fonetisk tilnærming : I den akustiske fonetiske tilnærmingen brukes generelt den skjulte Markov-modellen. Denne modellen utvikler en ikke-deterministisk sannsynlighetsmodell for talegjenkjenning. Denne modellen består av to variabler - de skjulte tilstandene til fonemene som er lagret i dataminnet og det synlige frekvenssegmentet til det digitale signalet. Hvert fonem har sin egen sannsynlighet og segmentet blir matchet med fonemet i henhold til sannsynligheten, og de matchede fonemene blir deretter samlet sammen for å danne de riktige ordene i henhold til de lagrede grammatikkreglene på språket.

Ved hjelp av en mønstergjenkjenningsmetode : I mønstergjenkjenningstilnærmingen blir systemet trent med et bestemt talemønster for hvilket som helst språk, og det ukjente talemønsteret sammenlignes med referansetalemønsteret ved å bestemme avstanden mellom signalene ved hjelp av tidsvridningsteknikk.

Bruke kunstig intelligens : Artificial Intelligence-tilnærmingen er basert på bruk av grunnleggende kunnskapskilder som kunnskap om lyder som er uttalt på grunnlag av spektrale målinger, kunnskap om riktige meningsfulle og syntaktiske ord.

Faktorer som talegjenkjenningssystem er avhengig av

Talegjenkjenningssystemet avhenger av følgende faktorer:

  • Isolerte ord : Det må være en pause mellom de påfølgende ordene som blir sagt fordi sammenhengende ord kan overlappe hverandre, noe som gjør det vanskelig for systemet å forstå når et ord starter eller slutter. Dermed må det være en stillhet mellom påfølgende ord.
  • Enkelt høyttaler : Mange høyttalere som prøver å gi taleinnspill samtidig, kan forårsake overlapping av signalene og avbrudd. De fleste av talegjenkjenningssystemene som brukes er høyttaleravhengige systemer.
  • Ordforrådets størrelse : Språk med stort ordforråd er vanskelig å vurdere for mønstermatching enn de med lite ordforråd, da sjansen for å ha tvetydige ord er mindre i sistnevnte.
Talegjenkjenningssystem på Windows 7

Jeg vil anbefale følgende trinn for alle som bruker Windows 7 til talegjenkjenningssystemet

  • Åpne Kontrollpanel fra startmenyen eller ved å klikke på ikonet.
  • Velg Enkel tilgang og klikk deretter Talegjenkjenning.
  • Klikk deretter på Sett opp mikrofon og velg stasjonær mikrofon blant de tilgjengelige alternativene.
  • Neste ta taleopplæringen og følg instruksjonene.
  • Etter det, trene datamaskinen din for bedre alternativer, slik at datamaskinen lagrer et bestemt mønster av talesignalet ditt. Dette gjøres ved å klikke på “trene datamaskinen din for å bedre forstå deg” og deretter følge instruksjonene.
  • Start nå talegjenkjenningsikonet og begynn å diktere talen din til datamaskinen. Du kan også legge til dine egne ord i datamaskinordlisten.
Praktiske talegjenkjenningssystemer: Bruk av HM2007

Et praktisk talegjenkjenningssystem kan konstrueres ved bruk av Speech Recognition IC HM2007 . HM2007 er en 48-pinners IC som gir talegjenkjenningsfunksjon. Den fungerer i to moduser: Manuell modus eller CPU-modus. I begge modusene blir IC først trent til å gjenkjenne ord av brukeren som sier hvert ord for tilsvarende tall som trykkes på tasten. IC lagrer hvert ordsignal på minneplasseringen som tilsvarer ordet. Datautgangen fra IC-en er grensesnittet til mikrokontrolleren der den vises på LCD-skjermen.

Praktiske systemer for talegjenkjenning

Normalt bruker vi manuell modus for HM2007-drift.

  • HM2007 består av en RDY-pin som er en aktiv lav pin som indikerer at IC er klar for treningsformål.
  • Stemmeinngangen vil bli gitt via en mikrofon koblet til MICIN-pinnen på IC-en.
  • IC er grensesnitt med et tastatur som brukes til å gi nummerinngang som tilsvarer hvert ord. IC fungerer i to funksjoner - Clear og Train. Når Train-tasten trykkes på tastaturet, begynner IC-en sin treningsprosess.
  • Brukeren trykker på en nummertast før du trykker på ‘Tog’ funksjonstasten og sier ordet du trenger til mikrofonen.
  • IC sender et høyt signal til ME (Memory Enable) -pinne som er koblet til tilsvarende ME-pinne av SRAM. 8-bits datasignalet som tilsvarer antallet som trykkes, lagres i SRAM (eksternt RAM) gjennom den eksterne bussen.
  • Etter at stemmeinngangen er oppdaget, er RDY-pinnen logisk høy og IC kommer til gjenkjenningstilstanden, der den starter gjenkjennelsesprosessen.
  • Resultatet av prosessen er gitt gjennom databussen med DEN (Data Enable) -pinnen høy.
  • 8-biters data kan deretter gis til mikrokontrolleren gjennom en seriegrensesnittprosessor eller først låses ved hjelp av låsen IC 74HC573.
  • Mikrokontrolleren er grensesnittet med en LCD og er programmert slik at det tilsvarende ordet vises på skjermen.

Den eneste forholdsregelen som må tas er å ikke bruke homonymer (ord med lignende lyd) og også å ta seg av eksitasjonen i stemmen.

Så dette er alt hvordan en grunnleggende talegjenkjenningssystem virker. Eventuelle ytterligere innganger kan legges til.

Bildekreditt

  • Talegjenkjenningssystem av Gstatisk
  • Speech Waveform Manipulation av Dadisp

Components of Speech Recognition System by An Introduction to Speech and Speaker Recognition - Richard D. Peacocke og Daryl H. Graf