Beszélgetési AI: Automatikus beszédfelismerés

Több mint 8k hangóra összegyűjtve, 800 óra átírás a többnyelvű hangtechnológiához

Társalgó ai

Bevezetés

Indiának olyan platformra volt szüksége, amely többnyelvű adatkészletek és mesterséges intelligencia-alapú nyelvtechnológiai megoldások létrehozására összpontosít, hogy indiai nyelveken digitális szolgáltatásokat nyújthasson. A kezdeményezés elindításához a The Client együttműködött Shaip-pel, hogy összegyűjtse és átírja az indiai nyelvet, hogy többnyelvű beszédmodelleket hozzon létre.

kötet

Gyűjtött adatok órái
10
Annotált oldalak száma
10 +
Projekt időtartama
< 1 hónap

Kihívások

Ahhoz, hogy segítse az ügyfeleket az indiai nyelvekre vonatkozó Speech Technology beszédterv elkészítésében, a csapatnak nagy mennyiségű képzési adatot kellett megszereznie, szegmentálnia és átírnia az AI-modell felépítéséhez. Az ügyfél kritikus követelményei a következők voltak:

Adatgyűjtés

  • Szerezzen be 8000 óra edzési adatokat India távoli helyeiről
  • A beszállító spontán beszédet gyűjt a 20-70 éves korosztályból
  • Biztosítsa a beszélők változatos keverékét életkor, nem, végzettség és nyelvjárás szerint
  • Minden hangfelvételnek legalább 16 kHz-esnek kell lennie, 16 bit/minta sebességgel.
Adatgyűjtés

Adatok átírása

Kövesse a részletes átírási irányelveket a karakterek és speciális szimbólumok, helyesírás és nyelvtan, nagybetűk, rövidítések, összehúzódások, egyéni kimondott betűk, számok, írásjelek, betűszók és kezdőbetűk, zavaró beszéd, érthetetlen beszéd, nem célnyelvek, nem beszédmód tekintetében.

Adatátírás

Minőségellenőrzés és visszajelzés

Minden felvétel minőségértékelésen és érvényesítésen esik át, csak az érvényesített beszédfelvételeket kell kézbesíteni

Megoldás

A társalgási mesterséges intelligencia mélyreható ismeretével segítettünk ügyfelünknek összegyűjteni és átírni a hangadatokat szakértő gyűjtőkből, nyelvészekből és annotátorokból álló csapattal, hogy India távoli részeiről nagy mennyiségű hangadatot hozzon létre.

A Shaip munkája kiterjedt, de nem korlátozódott arra, hogy nagy mennyiségű hangoktatási adatot szerezzen be, átírja az adatokat és a metaadatokat tartalmazó megfelelő JSON-fájlokat [hangszórók és átírók számára egyaránt]. A metaadatok minden felszólaló esetében tartalmaznak egy névtelen hangszóró-azonosítót, az eszköz adatait, a demográfiai adatokat, például a nemet, az életkort és az iskolai végzettséget, valamint a PIN-kódot, a társadalmi-gazdasági állapotukat, a beszélt nyelveket, valamint az élethosszig tartó feljegyzést. Minden átíró esetében az adatok tartalmaznak egy anonimizált átírói azonosítót, a beszélőkéhez hasonló demográfiai adatokat, az átírási élmény időtartamát, valamint az olvasni, írni és beszélni képes nyelvek alapos bontását.

Shaip összegyűjtött 8000 órányi hangadat / Spontán beszéd nagy méretben és 800 óra átírása, miközben fenntartja a kívánt minőségi szintet, amely szükséges a beszédtechnológia képzéséhez összetett projektekhez. Minden résztvevőtől kifejezett beleegyezési űrlapot vettek. A / Spontán beszéd összegyűjtése az Egyetem által biztosított képek alapján készült. Nak,-nek 3500 képeket, 1000 általánosak és 2500 kerület-specifikus kultúrához, fesztiválokhoz stb. kapcsolódnak. A képek különböző területeket ábrázolnak, például vasútállomásokat, piacokat, időjárást stb.

Adatgyűjtés

ÁllamikerületekAudio óraÁtírás
(óra)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzafffarpur, Jamui2000200
Uttar PradesDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Nyugat-BengáliaPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaÉszak+Dél Goa10010
KarnatakaDakshin kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Végösszeg8000800

Általános irányelvek

kialakított

    • Hang 16 kHz-en, 16 bit/minta.
    • Egycsatornás.
    • Nyers hang átkódolás nélkül.

Stílus

    • Spontán beszéd.
    • Mondatok az Egyetem által biztosított képek alapján. A 3500 képből 1000 általános, 2500 pedig a körzetspecifikus kultúrához, fesztiválokhoz stb. kapcsolódik. A képek különböző területeket ábrázolnak, például vasútállomásokat, piacokat, időjárást stb.

Felvételi háttér

    • Csendes, visszhangmentes környezetben készült.
    • Nincsenek zavarok az okostelefonon (rezgés vagy értesítések) a felvétel során.
    • Nincsenek olyan torzítások, mint a vágás vagy a távoli effektusok.
    • A telefon rezgései elfogadhatatlanok; a külső rezgések elviselhetők, ha a hang tiszta.

Hangszóró specifikáció

    • Életkor 20-70 év között, kerületenként kiegyensúlyozott nemi megoszlás mellett.
    • Minden körzetben legalább 400 anyanyelvi beszélő.
    • A beszélőknek saját nyelvüket/dialektusukat kell használniuk.
    • A hozzájárulási űrlap kitöltése minden résztvevő számára kötelező.


Minőségellenőrzés és kritikus minőségbiztosítás

A minőségbiztosítási folyamat a hangfelvételek és átiratok minőségbiztosítását helyezi előtérbe. Az audio szabványok a precíz csendekre, a szegmens időtartamára, az egyhangszóró tisztaságára és a részletes metaadatokra összpontosítanak, beleértve az életkort és a társadalmi-gazdasági állapotot. Az átírási kritériumok hangsúlyozzák a címke pontosságát, a szó valódiságát és a szegmens pontos részleteit. Az elfogadási benchmark azt írja elő, hogy ha egy hangköteg több mint 20%-a nem felel meg ezeknek a szabványoknak, akkor az elutasításra kerül. 20%-nál kisebb eltérések esetén hasonló profilú felvételekre van szükség.

Adatok átírása

Az átírási irányelvek csak akkor hangsúlyozzák a pontosságot és a szó szerinti átírást, ha a szavak világosak és érthetőek; a nem egyértelmű szavakat a probléma alapján [érthetetlen] vagy [hallhatatlan] jelöléssel látja el. Hosszú hang esetén a mondathatárokat jelöli , és nem megengedett a nyelvtani hibák átfogalmazása vagy javítása. A szó szerinti átírás kiterjed a hibákra, a szlengekre és az ismétlődésekre, de kihagyja a hamis indításokat, a kitöltő hangokat és a dadogást. A háttér- és előtérzajokat leíró címkékkel írják át, míg a tulajdonnevek, címek és számok meghatározott átírási szabályokat követnek. A hangszórócímkéket minden mondatnál használjuk, a hiányos mondatokat pedig jelöli.

Projekt munkafolyamat

A munkafolyamat leírja a hang átírási folyamatát. A résztvevők beiskolázásával és képzésével kezdődik. Hangot rögzítenek egy alkalmazás segítségével, amelyet feltöltenek egy minőségbiztosítási platformra. Ez a hang minőségellenőrzésen és automatikus szegmentáláson esik át. A technológiai csapat ezután előkészíti a szegmenseket az átíráshoz. A kézi átírás után egy minőségbiztosítási lépés következik. Az átiratokat kézbesítik az ügyfélnek, és ha elfogadják, a kézbesítés befejezettnek minősül. Ha nem, akkor az ügyfelek visszajelzései alapján módosításokat hajtanak végre.

Eredmény

A szakértő nyelvészektől származó kiváló minőségű hangadatok lehetővé teszik ügyfelünk számára, hogy az előírt időn belül pontosan képezzenek és építsenek többnyelvű beszédfelismerő modelleket különböző indiai nyelveken, különböző dialektusokkal. A beszédfelismerő modellek a következőkre használhatók:

  • A digitális befogadás nyelvi akadályainak leküzdése azáltal, hogy a polgárokat saját anyanyelvükön kapcsolja be a kezdeményezésekhez.
  • Támogatja a digitális kormányzást
  • Katalizátor az indiai nyelvű szolgáltatások és termékek ökoszisztémájának kialakításához
  • Több lokalizált digitális tartalom a közérdekű területeken, különösen az irányítás és a politika területén

Csodálkozunk Shaip szakértelme előtt a társalgási mesterséges intelligencia területén. Az a feladat, hogy 8000 órányi hangadatot és 800 órányi átírást kezeljenek 80 különböző körzetben, enyhén szólva is monumentális volt. Shaip e terület bonyolult részleteinek és árnyalatainak mély megértése tette lehetővé egy ilyen kihívásokkal teli projekt sikeres végrehajtását. Valóban dicséretes, hogy képesek zökkenőmentesen kezelni és eligazodni e hatalmas adatmennyiség összetettségei között, miközben biztosítják a kiváló minőséget.

Arany-5 csillagos

Gyorsítsa fel a társalgási AI -t
alkalmazásfejlesztés 100% -ban