Beszédfelismerési képzési adatok

Beszédfelismerési képzési adatok – típusok, adatgyűjtés és alkalmazások

Ha Siri, Alexa, Cortana, Amazon Echo vagy másokat használ mindennapi élete részeként, akkor elfogadja, hogy Beszédfelismerés életünk mindenütt jelenlévő részévé vált. Ezek mesterséges intelligencia által hajtott A hangasszisztensek szöveggé alakítják a felhasználók verbális lekérdezéseit, értelmezik és megértik, amit a felhasználó mond, hogy megfelelő választ adjanak.

Minőségi adatgyűjtésre van szükség a megbízható beszéd-, felismerési modellek kialakításához. De fejlődni beszédfelismerő szoftver nem egyszerű feladat – éppen azért, mert az emberi beszédet a maga teljes bonyolultságában, például ritmusban, akcentusban, hangmagasságban és tisztaságban nehéz átírni. És ha érzelmeket ad hozzá ehhez az összetett keverékhez, az kihívássá válik.

Mi az a beszédfelismerés?

A beszédfelismerés a szoftver felismerő és feldolgozó képessége emberi beszéd szövegbe. Bár a hangfelismerés és a beszédfelismerés közötti különbség sokak számára szubjektívnek tűnhet, van néhány alapvető különbség a kettő között.

Bár a beszéd- és hangfelismerés is a hangasszisztens technológia részét képezi, két különböző funkciót lát el. A beszédfelismerés automatikusan átírja az emberi beszédet és a parancsokat szöveggé, míg a hangfelismerés csak a beszélő hangjának felismerésével foglalkozik.

A beszédfelismerés típusai

Mielőtt belevágnánk beszédfelismerési típusok, vessünk egy rövid pillantást a beszédfelismerési adatokra.

A beszédfelismerési adatok emberi beszédhangfelvételek és szöveges átírások gyűjteménye, amelyek segítenek a gépi tanulási rendszerek képzésében hangfelismerés.

A hangfelvételek és átiratok bekerülnek az ML rendszerbe, így az algoritmus betanítható a beszéd árnyalatainak felismerésére és jelentésének megértésére.

Bár sok helyen ingyenes előre csomagolt adatkészleteket kaphat, a legjobb, ha beszerez testreszabott adatkészletek projektjeihez. Egyéni adatkészlettel kiválaszthatja a gyűjtemény méretét, a hang- és hangszórókövetelményeket, valamint a nyelvet.

Beszédadat-spektrum

Beszédadatok spektrum azonosítja a beszéd minőségét és hangmagasságát a természetestől a természetellenesig.

  • Szkriptelt beszédfelismerési adatok

    Ahogy a neve is sugallja, a szkriptelt beszéd az adatok ellenőrzött formája. A beszélők meghatározott kifejezéseket rögzítenek egy előkészített szövegből. Ezeket jellemzően parancsok kézbesítésére használják, hangsúlyozva, hogy a szó vagy kifejezés inkább mondják, mint azt, amit mondanak.

    A szkriptelt beszédfelismerés használható olyan hangasszisztens fejlesztésekor, amely felveszi a különféle hangszórók ékezeteivel kiadott parancsokat.

  • Forgatókönyv-alapú beszédfelismerés

    Egy forgatókönyv-alapú beszédben a beszélőt arra kérik, hogy képzeljen el egy adott forgatókönyvet, és adja ki a hangutasítás forgatókönyv alapján. Ily módon az eredmény olyan hangparancsok gyűjteménye, amelyek nem szkriptek, hanem vezéreltek.

    Forgatókönyv-alapú beszédadatokra van szükség azoknak a fejlesztőknek, akik olyan eszközt szeretnének kifejleszteni, amely megérti a mindennapi beszédet annak különféle árnyalataival együtt. Például útbaigazítást kér, hogy eljusson a legközelebbi Pizza Huthoz, különféle kérdések segítségével.

  • Természetes beszédfelismerés

    A beszédspektrum végén a spontán, természetes és semmilyen módon nem kontrollált beszéd található. A beszélő szabadon beszél a természetes társalgási hangnemével, nyelvével, hangmagasságával és tenorjával.

    Ha több hangszórós beszédfelismerésre szeretne ML alapú alkalmazást betanítani, akkor egy szkript nélküli ill társalgási beszéd adatkészlet hasznos.

Adatgyűjtési összetevők beszédprojektekhez

Beszéd adatgyűjtés A beszédadatok gyűjtésének számos lépése biztosítja, hogy az összegyűjtött adatok minőségiek legyenek, és segítik a kiváló minőségű AI-alapú modellek képzését.

A szükséges felhasználói válaszok megértése

Kezdje azzal, hogy megértse a modellhez szükséges felhasználói válaszokat. A beszédfelismerő modell kidolgozásához olyan adatokat kell gyűjtenie, amelyek pontosan reprezentálják a szükséges tartalmat. Gyűjtsön adatokat a valós interakciókból, hogy megértse a felhasználói interakciókat és válaszokat. Ha mesterséges intelligencia-alapú csevegési asszisztenst épít, nézze meg a csevegési naplókat, a hívásfelvételeket és a csevegési párbeszédpanel válaszait egy adatkészlet létrehozásához.

Vizsgálja meg a tartományspecifikus nyelvet

A beszédfelismerési adatkészlethez általános és tartományspecifikus tartalom is szükséges. Miután összegyűjtötte az általános beszédadatokat, át kell szűrnie az adatokat, és el kell választania az általánost a konkréttól.

Például az ügyfelek telefonálhatnak, és időpontot kérhetnek a glaukóma ellenőrzésére egy szemészeti központban. Az időpontkérés nagyon általános kifejezés, de a glaukóma tartomány-specifikus.

Ezenkívül a beszédfelismerő ML-modell betanításakor ügyeljen arra, hogy a kifejezések azonosítására tanítsa, nem pedig egyenként felismert szavakat.

Emberi beszéd rögzítése

Az előző két lépésből származó adatok összegyűjtése után a következő lépésben rávennénk az embereket az összegyűjtött állítások rögzítésére.

Elengedhetetlen a szkript ideális hosszának megőrzése. Ha arra kérik az embereket, hogy olvassanak el több mint 15 percnyi szöveget, az kontraproduktív lehet. Tartson legalább 2-3 másodperces szünetet az egyes rögzített kijelentések között.

Hagyja, hogy a felvétel dinamikus legyen

Készítsen beszédtárat különféle emberekről, beszédhangsúlyokról, stílusokról, amelyeket különböző körülmények között, eszközökön és környezetekben rögzítettek. Ha a jövőbeni felhasználók többsége a vezetékes vonalat fogja használni, a beszédgyűjtő adatbázisnak jelentős reprezentációval kell rendelkeznie, amely megfelel ennek a követelménynek.

Indukáljon változékonyságot a beszédrögzítésben

A célkörnyezet beállítása után kérje meg az adatgyűjtés alanyait, hogy olvassák el az elkészített szkriptet hasonló környezetben. Kérd meg az alanyokat, hogy ne aggódjanak a hibák miatt, és tartsák meg a lehető legtermészetesebben az előadásmódot. Az ötlet az, hogy egy nagy csoport ember rögzítse a forgatókönyvet ugyanabban a környezetben.

A beszédek átírása

Miután felvette a forgatókönyvet több tárgyból (hibásan), folytassa az átírással. Tartsa érintetlenül a hibákat, mert ez segít az összegyűjtött adatok dinamizmusának és változatosságának elérésében.

Ahelyett, hogy az emberek szóról szóra átírnák a teljes szöveget, használhat egy beszéd-szöveggé motort az átíráshoz. Javasoljuk azonban, hogy a hibák kijavításához alkalmazzon emberi átírókat.

Készítsen tesztkészletet

A tesztkészlet kidolgozása kulcsfontosságú, mivel az éllovas a nyelvi modell.

Készítsen párost a beszédből és a megfelelő szövegből, és bontsa őket szegmensekre.

Az összegyűjtött elemek összegyűjtése után vegyünk ki egy 20%-os mintát, amelyből a tesztkészlet alakul ki. Ez nem a betanítási készlet, de ezek a kivont adatok tájékoztatják Önt, ha a betanított modell olyan hangot ír át, amelyre nem tanították.

Nyelvi képzési modell felépítése és mérése

Most készítse el a beszédfelismerő nyelvi modellt a tartományspecifikus utasítások és szükség esetén további variációk felhasználásával. Miután betanította a modellt, el kell kezdenie a mérést.

Vegye ki a képzési modellt (80%-ban kiválasztott hangszegmenssel), és tesztelje a tesztkészlettel (kivont 20%-os adatkészlettel), hogy ellenőrizze az előrejelzéseket és a megbízhatóságot. Ellenőrizze a hibákat, mintákat, és összpontosítson a javítható környezeti tényezőkre.

Lehetséges használati esetek vagy alkalmazások

A beszédfelismerés használati esete

Hangalkalmazás, Intelligens készülékek, Beszéd szöveggé, Ügyfélszolgálat, Tartalmi diktálás, Biztonsági alkalmazás, Autonóm járművek, Jegyzetkészítés az egészségügyben.

A beszédfelismerés a lehetőségek világát nyitja meg, és a hangalkalmazások felhasználói alkalmazása az évek során egyre nőtt.

Néhány gyakori alkalmazása beszédfelismerő technológia következők:

  1. Hangalapú keresési alkalmazás

    A Google szerint körülbelül 20% a Google alkalmazásban végzett keresések közül hangalapú. Nyolc milliárd ember az előrejelzések szerint 2023-ra hangasszisztenseket fognak használni, ami meredek növekedés a 6.4-re előre jelzett 2022 milliárdhoz képest.

    A hangalapú keresés alkalmazása az évek során jelentősen megnövekedett, és ez a tendencia az előrejelzések szerint folytatódni fog. A fogyasztók a hangalapú keresésre hagyatkoznak a lekérdezések kereséséhez, a termékek vásárlásához, a vállalkozások helyének meghatározásához, a helyi vállalkozások megtalálásához stb.

  2. Otthoni eszközök/okos készülékek

    A hangfelismerő technológiát arra használják, hogy hangutasításokat adjanak otthoni okoseszközökhöz, például tévékhez, lámpákhoz és egyéb készülékekhez. A fogyasztók 66% -a az Egyesült Királyságban, az Egyesült Államokban és Németországban kijelentették, hogy hangasszisztenseket használtak okoseszközök és hangszórók használatakor.

  3. Beszéd a szöveghez

    A beszéd-szöveg alkalmazásokat arra használják, hogy segítsék a szabad számítástechnikát e-mailek, dokumentumok, jelentések és egyebek beírásakor. Beszéd a szöveghez kiküszöböli a dokumentumok gépelésének, a könyvek és levelek írásának, a videók feliratozásának és a szöveg fordításának idejét.

  4. Vevőszolgálat

    A beszédfelismerő alkalmazásokat elsősorban az ügyfélszolgálatban és a támogatásban használják. A beszédfelismerő rendszer segíti az ügyfélszolgálati megoldásokat a hét minden napján, 24 órában elérhető áron, korlátozott számú képviselővel.

  5. Tartalmi diktálás

    A tartalmi diktálás egy másik dolog beszédfelismerési használati eset amely segít a hallgatóknak és az oktatóknak átfogó tartalmat írni az idő töredéke alatt. Nagyon hasznos a vakság vagy látásproblémák miatt hátrányos helyzetű tanulók számára.

  6. Biztonsági alkalmazás

    A hangfelismerést széles körben használják biztonsági és hitelesítési célokra, egyedi hangjellemzők azonosításával. Ahelyett, hogy az érintett személy személyes adatai alapján azonosítaná magát, a hangbiometrikus adatok növelik a biztonságot.

    Ezenkívül a biztonsági célú hangfelismerés javította az ügyfelek elégedettségét, mivel megszünteti a kiterjesztett bejelentkezési folyamatot és a hitelesítő adatok megkettőzését.

  7. Hangutasítások járművekhez

    A járművek, elsősorban az autók, már rendelkeznek közös hangfelismerő funkcióval a vezetési biztonság fokozása érdekében. Segíti a vezetőt a vezetésre összpontosítani azáltal, hogy olyan egyszerű hangutasításokat fogad el, mint a rádióállomások kiválasztása, hívások kezdeményezése vagy a hangerő csökkentése.

  8. Jegyzetírás az egészségügyért

    A beszédfelismerő algoritmusokkal épített orvosi átíró szoftver könnyedén rögzíti az orvosok hangjegyzeteit, parancsait, diagnózisait és tüneteit. Az orvosi jegyzetírás növeli az egészségügyi ágazat minőségét és sürgősségét.

Van olyan beszédfelismerő projekt a fejében, amely átalakíthatja vállalkozását? Csak egy testreszabott beszédfelismerő adatkészletre lehet szüksége.

A mesterséges intelligencia alapú beszédfelismerő szoftvert megbízható adatkészletekre kell képezni a gépi tanulási algoritmusokon, hogy integrálja a szintaxist, a nyelvtant, a mondatszerkezetet, az érzelmeket és az emberi beszéd árnyalatait. A legfontosabb, hogy a szoftvernek folyamatosan tanulnia kell és reagálnia kell – minden interakcióval növekszik.

A Shaipnél teljesen testreszabott beszédfelismerési adatkészleteket biztosítunk különféle gépi tanulási projektekhez. A Shaip segítségével hozzáférhet a legjobb minőségű, személyre szabott edzési adatok amelyek segítségével megbízható beszédfelismerő rendszert lehet felépíteni és forgalmazni. Lépjen kapcsolatba szakértőinkkel kínálatunk átfogó megismeréséhez.

[Olvassa el még: A társalgási AI teljes útmutatója]

Közösségi megosztás