Automatikus beszédfelismerés

Az automatikus beszédfelismeréshez szükséges hangadatok gyűjtési folyamatának megértése

Az automatikus beszédfelismerő rendszerek és a virtuális asszisztensek, például a Siri, az Alexa és a Cortana mindennapi részévé váltak életünknek. Függőségünk tőlük jelentősen növekszik, ahogy egyre okosabbak lesznek. A lámpák felkapcsolásától a hívások kezdeményezésén át a TV-csatornák váltásáig felhasználjuk ezeket az intelligens technológiákat a hétköznapi feladatok elvégzésére.

Azonban elgondolkozott már azon, hogyan működnek ezek a beszédfelismerő rendszerek?

Nos, ez a blog az automatikus beszédfelismerés néhány alapjáról tanít. Azt is megvizsgáljuk, hogyan működik, és hogyan épülnek fel az olyan funkcionális virtuális asszisztensek, mint a Siri.

Mi az automatikus beszédfelismerés?

Az Automatic Speech Recognition (ASR) olyan szoftver, amely lehetővé teszi a számítógépes rendszer számára, hogy az emberi beszédet szöveggé alakítsa, kihasználva többféle mesterséges intelligenciát és gépi tanulási algoritmust.

Az adott parancs konvertálása és elemzése után a számítógép a felhasználónak megfelelő kimenettel válaszol. Az ASR-t először 1962-ben vezették be, és azóta folyamatosan fejleszti működését, és hatalmas reflektorfénybe került az olyan népszerű alkalmazások miatt, mint az Alexa és a Siri.

Tudta, hogy az automatikus beszédfelismerést beszéd-szöveg-olvasóként is ismerik? Bővebben ebben a blogban olvashatsz róla! 

Mi a beszédgyűjtés folyamata az ASR-modellek betanításához?

Beszédgyűjtési folyamat

A beszédgyűjtés célja, hogy több mintafelvételt gyűjtsön össze több területről, amelyeket az ASR-modellek betáplálásához és betanításához használnak. Az ASR rendszer akkor nyújtja a legnagyobb hatékonyságot, ha nagy mennyiségű beszéd- és hangadatkészletet gyűjtenek össze és biztosítanak a rendszernek.

A zökkenőmentes működés érdekében az összegyűjtött beszédadatkészleteknek tartalmazniuk kell minden megcélzott demográfiai adatot, nyelvet, ékezetet és dialektust. A következő folyamat bemutatja, hogyan lehet több lépésben betanítani a gépi tanulási modellt:

  • Kezdje a demográfiai mátrix felépítésével

    Elsősorban a különböző demográfiai adatokhoz gyűjt adatokat, mint például a hely, a nem, a nyelv, az életkor és az ékezetek. Ezenkívül gondoskodjon a különféle környezeti zajok rögzítéséről, például az utcai zajról, a váróterem zajáról, a közhivatali zajokról stb.

  • Gyűjtsd össze és írd át a beszédadatokat

    A következő lépés az emberi hang- és beszédminták gyűjtése különböző földrajzi helyek alapján az ASR-modell betanításához. Ez egy fontos lépés, és megköveteli, hogy a humán szakértők hosszú és rövid szavakat adjanak ki, hogy a mondat valódi érzését kapják, és ugyanazokat a mondatokat ismételjék meg különböző akcentussal és dialektussal.

  • Hozzon létre egy külön tesztkészletet

    Miután összegyűjtötte az átírt szöveget, a következő lépés az, hogy párosítsa a megfelelő hangadatokkal. Ezután szegmentálja tovább az adatokat, és szerepeltessen belőlük egy állítást. Most a szegmentált adatpárokból véletlenszerű adatokat vonhat le egy halmazból további tesztelés céljából.

  • Tanítsa meg ASR nyelvi modelljét

    Minél több információval rendelkezik az adatkészlet, annál jobban teljesítene az AI által kiképzett modell. Ezért a korábban rögzített szövegek és beszédek többféle változatát állíthatja elő. Ugyanazokat a mondatokat fogalmazza meg különböző beszédjelölésekkel!

  • Értékelje ki a kimenetet, és végül ismételje meg

    Végül mérje meg az ASR-modell kimenetét, hogy javítsa a teljesítményét. Tesztelje a modellt egy tesztkészlettel a hatékonyságának meghatározásához. Megfelelő módon kapcsolja be az ASR-modellt egy visszacsatoló hurokba a kívánt kimenet létrehozásához és az esetleges hiányosságok kijavításához.

[Olvassa el még: Az automatikus beszédfelismerés átfogó áttekintése]

Melyek a beszédfelismerés különböző használati esetei?

A beszédfelismerő technológia ma már számos iparágban elterjedt. Egyes iparágak, amelyek ezt a hatalmas technológiát használják, a következők:

  • Élelmiszeripar Élelmiszeripar: Az olyan élelmiszeripari óriáscégek, mint a Wendy's és a McDonald's, az ASR használatával javítják vásárlói élményeiket. Számos üzletükben teljesen működőképes ASR-modelleket telepítettek a rendelések fogadására, és továbbadják azokat a főzési részlegnek, hogy elkészítsék a vásárlói rendelést.

     

  • Távközlés Távközlés: A Vodafone a világ egyik legnagyobb távközlési szolgáltatója. Ügyfélszolgálati és telefonos továbbító szolgáltatásait az ASR modellek felhasználásával tervezte, amelyek elvezetik Önt a különböző lekérdezések megoldásához és a hívások átirányításához az érintett részlegekhez.

     

  • Utazás és szállítás Utazás és közlekedés: Általánossá vált a Google Android Auto vagy az Apple CarPlay. A legtöbben navigációs rendszerek aktiválására, üzenetek küldésére vagy zenei lejátszási listák váltására használják őket. A technológiai fejlődéssel azonban az ilyen rendszerek egyre kifinomultabbak.
    A BMW 3-as sorozatában bemutatott BMW intelligens személyi asszisztens sokkal okosabb, mint a hagyományos hangasszisztensek. Lehetővé teheti a vezetők számára, hogy megtalálják az autóval kapcsolatos információkat, és hangutasításokkal kezeljék az autót.
  • Média és szórakozásMédia és szórakoztatás: A médiaipar is számos projektjében alkalmazza az ASR-t. A Youtube elindított egy mesterséges intelligencia-alapú asszisztenst, amely élő automatikus feliratokat generál. Miközben beszél a képernyőn, az asszisztens biztosítja a feliratokat, hogy a videó a Youtube-felhasználók nagyobb csoportja számára elérhető legyen.

 

[Olvassa el még: Mi az a beszéd-szöveg technológia és hogyan működik?]

Hogyan tud Shaip segíteni?

A Shaip az egyik vezető mesterséges intelligencia képzési szolgáltatás, amely a mesterséges intelligencia és az ML számos területén rendelkezik szakértelemmel. Segíthetnek saját adatkészletének felépítésében, amelyet különféle alkalmazásokhoz és projektekhez használhat fel.

A Shaip által nyújtott szolgáltatások közül néhány:

  • Automatizált beszédfelismerés (ASR)
  • Szkriptelt beszédgyűjtemény
  • Átteremtés
  • Spontán beszéd gyűjtemény
  • Utterance Collection/Ébresztő szavak,
  • Szövegfelolvasó (TTS)

Használhatja ezeket a szolgáltatásokat, hogy a legjobb eredményeket érje el AI-alapú projektjeinél. Tudjon meg többet ezekről a szolgáltatásokról, forduljon szakértői csapatunkhoz még ma!

Közösségi megosztás