Esettanulmány: Conversational AI

Több mint 3 ezer órányi adatgyűjtés, szegmentálás és átírás az ASR felépítéséhez 8 indiai nyelven

Szólásgyűjtemény
A kormány célja, hogy a Bhashini projekten keresztül polgárai könnyen hozzáférhessenek az internetes és digitális szolgáltatásokhoz saját anyanyelvükön.

A BHASHINI, India mesterséges intelligencia által vezérelt nyelvi fordítóplatformja a Digital India kezdeményezés létfontosságú része.

A mesterséges intelligencia (AI) és a természetes nyelvi feldolgozás (NLP) eszközeinek biztosítására kkv-k, induló vállalkozások és független innovátorok számára készült Bhashini platform nyilvános forrásként szolgál. Célja a digitális befogadás előmozdítása azáltal, hogy lehetővé teszi az indiai polgárok számára, hogy anyanyelvükön léphessenek kapcsolatba az ország digitális kezdeményezéseivel.

Emellett célja az indiai nyelvű internetes tartalmak elérhetőségének jelentős bővítése. Ez különösen a közérdekű területeket célozza meg, mint például a kormányzás és politika, a tudomány és a technológia stb. Következésképpen ez arra fogja ösztönözni a polgárokat, hogy saját nyelvükön használják az internetet, elősegítve aktív részvételüket.

Használja ki az NLP-t a közreműködők, partnerszervezetek és polgárok sokszínű ökoszisztémájának lehetővé tételére a nyelvi korlátok átlépése érdekében, ezáltal biztosítva a digitális befogadást és felhatalmazást.

Való világmegoldás

A lokalizáció erejének felszabadítása adatokkal

Indiának olyan platformra volt szüksége, amely többnyelvű adatkészletek és mesterséges intelligencia-alapú nyelvtechnológiai megoldások létrehozására összpontosít, hogy indiai nyelveken digitális szolgáltatásokat nyújthasson. A kezdeményezés elindításához a Madras-i Indian Institute of Technology (IIT Madras) együttműködött a Shaip-pel, hogy indiai nyelvi adatkészleteket gyűjtsön össze, szegmentáljon és írjon le többnyelvű beszédmodellek létrehozásához.

Kihívások

Ahhoz, hogy segítse az ügyfeleket az indiai nyelvekre vonatkozó Speech Technology beszédterv elkészítésében, a csapatnak nagy mennyiségű képzési adatot kellett megszereznie, szegmentálnia és átírnia az AI-modell felépítéséhez. Az ügyfél kritikus követelményei a következők voltak:

Adatgyűjtés

  • Szerezzen be 3000 órányi edzési adatot 8 indiai nyelven, nyelvenként 4 dialektussal.
  • A szállító minden egyes nyelv esetében összegyűjti az Extempore Speech és
    Társalgó beszéd 18-60 éves korosztályból
  • Biztosítsa a beszélők változatos keverékét kor, nem, végzettség és nyelvjárás szerint
  • Biztosítsa a rögzítési környezetek változatos keverékét az előírásoknak megfelelően.
  • Minden hangfelvételnek legalább 16 kHz-es, de lehetőleg 44 kHz-esnek kell lennie

Adatok szegmentálása

  • Hozzon létre 15 másodperces beszédszegmenseket, és időbélyegezze a hangot ezredmásodpercben minden egyes beszélőhöz, hangtípushoz (beszéd, gügyög, zene, zaj), fordulatokhoz, megnyilatkozásokhoz és kifejezésekhez a beszélgetésben
  • Hozzon létre minden szegmenst a célzott hangjelzéshez 200-400 ezredmásodperces kitöltéssel az elején és végén.
  • Minden szegmensnél a következő objektumokat kell kitölteni, pl. kezdési időpont, befejezési idő, szegmensazonosító, hangerőszint, hangtípus, nyelvkód, hangszóróazonosító stb.

Adatok átírása

  • Kövesse a részletes átírási irányelveket a karakterek és speciális szimbólumok, helyesírás és nyelvtan, nagybetűk, rövidítések, összehúzódások, egyes kimondott betűk, számok, írásjelek, mozaikszavak, zavaró, beszéd, érthetetlen beszéd, nem célnyelvek, nem beszéd stb.

Minőségellenőrzés és visszajelzés

  • Minden felvétel minőségértékelésen és érvényesítésen esik át, csak az érvényesített beszédet kell leadni

Megoldás

A társalgási mesterséges intelligencia mélyreható ismeretével segítettünk az ügyfeleknek összegyűjteni, szegmentálni és átírni az adatokat szakértő gyűjtőkből, nyelvészekből és annotátorokból álló csapattal, hogy 8 indiai nyelven nagy mennyiségű hangadatkészletet hozzanak létre.

A Shaip által végzett munka kiterjedt, de nem korlátozódott arra, hogy nagy mennyiségű hangoktatási adatot gyűjtsön, a hangfelvételeket több részre szegmentálja, átírja az adatokat és szállítsa a metaadatokat tartalmazó megfelelő JSON-fájlokat [SpeakerID, Age, Gender, Language, Dialect,
Anyanyelv, végzettség, foglalkozás, tartomány, fájlformátum, frekvencia, csatorna, hang típusa, beszélők száma, idegen nyelvek száma, használt beállítás, keskeny vagy szélessávú hang stb.]. 

Shaip 3000 órányi hangadatot gyűjtött össze nagy léptékben, miközben megőrizte a kívánt minőségi szintet, amely a beszédtechnológia képzéséhez szükséges összetett projektekhez. Minden résztvevőtől kifejezett beleegyezési űrlapot vettek.

1. Adatgyűjtés

2. Adatszegmentáció

  • Az összegyűjtött hangadatokat tovább bontották 15 másodperces beszédszegmensekre, és ezredmásodpercenként időbélyegzésre kerültek minden egyes beszélőre, hangtípusra, fordulatokra, megnyilatkozásokra és kifejezésekre a beszélgetésben.
  • Létrehozta az egyes szegmenseket a célzott hangjelzéshez 200-400 ezredmásodperces kitöltéssel a hangjelzés elején és végén.
  • Az összes szegmensnél a következő objektumok voltak jelen és kitöltve, pl. kezdési időpont, befejezési idő, szegmensazonosító, hangerőszint (hangos, normál, halk), elsődleges hangtípus (beszéd, hangzavar, zene, zaj, átfedés), nyelvi kód hangszóróazonosító, átírás stb.

3. Minőségellenőrzés és visszajelzés

  • Minden felvétel minőségét értékelték, és csak a 90%-os WER-rel és 90%-os TER-rel rendelkező hitelesített beszédfelvételeket szállították le.
  • Minőségi ellenőrző lista követve:
       » A szegmens hossza legfeljebb 15 másodperc
       » Átírás meghatározott területekről, nevezetesen: időjárás, különböző típusú hírek, egészségügy, mezőgazdaság, oktatás, állások vagy pénzügyek
       » Alacsony háttérzaj
       » Nincs hangfelvétel kikapcsolva – Nincs torzítás
       » Helyes hangszegmentálás az átíráshoz

4. Adatátírás
Minden kimondott szó, beleértve a habozásokat, a kitöltőket, a hamis indításokat és az egyéb verbális tikkeket is, pontosan rögzítette az átírásban. Követtük a nagy- és kisbetűkkel, a helyesírással, a nagybetűkkel, a rövidítésekkel, az összehúzódásokkal, a számokkal kapcsolatos részletes átírási irányelveket is,
írásjelek, mozaikszavak, zavaró beszéd, nem beszédhangok stb. Ezen túlmenően a gyűjtés és az átírás során követett munkafolyamat a következő:

Eredmény

A szakértő nyelvészektől származó kiváló minőségű hangadatok lehetővé teszik az Indian Institute of Technology – Madras számára, hogy az előírt időn belül pontosan képezzen ki és építsen többnyelvű beszédfelismerési modelleket 8 indiai nyelven, különböző dialektusokkal. A beszédfelismerő modellek a következőkre használhatók:

  • A digitális befogadás nyelvi akadályainak leküzdése azáltal, hogy a polgárokat saját anyanyelvükön kapcsolja be a kezdeményezésekhez.
  • Támogatja a digitális kormányzást
  • Katalizátor az indiai nyelvű szolgáltatások és termékek ökoszisztémájának kialakításához
  • Több lokalizált digitális tartalom a közérdekű területeken, különösen az irányítás és a politika területén
Arany-5 csillagos

Lenyűgözött minket Shaip szakértelme a társalgási AI térben. Átfogó projektvégrehajtási kompetenciájuk a szükséges képzési adatok beszerzése, szegmentálása, átírása és továbbítása szakértő nyelvészektől 8 nyelven, szigorú határidők és irányelvek szerint; miközben továbbra is fenntartja az elfogadható minőségi színvonalat.”

Gyorsítsa fel a társalgási AI -t
alkalmazásfejlesztés 100% -ban

Kiemelt ügyfelek

A csapatok felhatalmazása a világelső AI termékek gyártására.