Esettanulmány: Conversational AI
Több mint 3 ezer órányi adatgyűjtés, szegmentálás és átírás az ASR felépítéséhez 8 indiai nyelven
A BHASHINI, India mesterséges intelligencia által vezérelt nyelvi fordítóplatformja a Digital India kezdeményezés létfontosságú része.
A mesterséges intelligencia (AI) és a természetes nyelvi feldolgozás (NLP) eszközeinek biztosítására kkv-k, induló vállalkozások és független innovátorok számára készült Bhashini platform nyilvános forrásként szolgál. Célja a digitális befogadás előmozdítása azáltal, hogy lehetővé teszi az indiai polgárok számára, hogy anyanyelvükön léphessenek kapcsolatba az ország digitális kezdeményezéseivel.
Emellett célja az indiai nyelvű internetes tartalmak elérhetőségének jelentős bővítése. Ez különösen a közérdekű területeket célozza meg, mint például a kormányzás és politika, a tudomány és a technológia stb. Következésképpen ez arra fogja ösztönözni a polgárokat, hogy saját nyelvükön használják az internetet, elősegítve aktív részvételüket.
Használja ki az NLP-t a közreműködők, partnerszervezetek és polgárok sokszínű ökoszisztémájának lehetővé tételére a nyelvi korlátok átlépése érdekében, ezáltal biztosítva a digitális befogadást és felhatalmazást.
Való világmegoldás
A lokalizáció erejének felszabadítása adatokkal
Indiának olyan platformra volt szüksége, amely többnyelvű adatkészletek és mesterséges intelligencia-alapú nyelvtechnológiai megoldások létrehozására összpontosít, hogy indiai nyelveken digitális szolgáltatásokat nyújthasson. A kezdeményezés elindításához a Madras-i Indian Institute of Technology (IIT Madras) együttműködött a Shaip-pel, hogy indiai nyelvi adatkészleteket gyűjtsön össze, szegmentáljon és írjon le többnyelvű beszédmodellek létrehozásához.
Kihívások
Ahhoz, hogy segítse az ügyfeleket az indiai nyelvekre vonatkozó Speech Technology beszédterv elkészítésében, a csapatnak nagy mennyiségű képzési adatot kellett megszereznie, szegmentálnia és átírnia az AI-modell felépítéséhez. Az ügyfél kritikus követelményei a következők voltak:
Adatgyűjtés
- Szerezzen be 3000 órányi edzési adatot 8 indiai nyelven, nyelvenként 4 dialektussal.
- A szállító minden egyes nyelv esetében összegyűjti az Extempore Speech és
Társalgó beszéd 18-60 éves korosztályból - Biztosítsa a beszélők változatos keverékét kor, nem, végzettség és nyelvjárás szerint
- Biztosítsa a rögzítési környezetek változatos keverékét az előírásoknak megfelelően.
- Minden hangfelvételnek legalább 16 kHz-es, de lehetőleg 44 kHz-esnek kell lennie
Adatok szegmentálása
- Hozzon létre 15 másodperces beszédszegmenseket, és időbélyegezze a hangot ezredmásodpercben minden egyes beszélőhöz, hangtípushoz (beszéd, gügyög, zene, zaj), fordulatokhoz, megnyilatkozásokhoz és kifejezésekhez a beszélgetésben
- Hozzon létre minden szegmenst a célzott hangjelzéshez 200-400 ezredmásodperces kitöltéssel az elején és végén.
- Minden szegmensnél a következő objektumokat kell kitölteni, pl. kezdési időpont, befejezési idő, szegmensazonosító, hangerőszint, hangtípus, nyelvkód, hangszóróazonosító stb.
Adatok átírása
- Kövesse a részletes átírási irányelveket a karakterek és speciális szimbólumok, helyesírás és nyelvtan, nagybetűk, rövidítések, összehúzódások, egyes kimondott betűk, számok, írásjelek, mozaikszavak, zavaró, beszéd, érthetetlen beszéd, nem célnyelvek, nem beszéd stb.
Minőségellenőrzés és visszajelzés
- Minden felvétel minőségértékelésen és érvényesítésen esik át, csak az érvényesített beszédet kell leadni
Megoldás
A társalgási mesterséges intelligencia mélyreható ismeretével segítettünk az ügyfeleknek összegyűjteni, szegmentálni és átírni az adatokat szakértő gyűjtőkből, nyelvészekből és annotátorokból álló csapattal, hogy 8 indiai nyelven nagy mennyiségű hangadatkészletet hozzanak létre.
A Shaip által végzett munka kiterjedt, de nem korlátozódott arra, hogy nagy mennyiségű hangoktatási adatot gyűjtsön, a hangfelvételeket több részre szegmentálja, átírja az adatokat és szállítsa a metaadatokat tartalmazó megfelelő JSON-fájlokat [SpeakerID, Age, Gender, Language, Dialect,
Anyanyelv, végzettség, foglalkozás, tartomány, fájlformátum, frekvencia, csatorna, hang típusa, beszélők száma, idegen nyelvek száma, használt beállítás, keskeny vagy szélessávú hang stb.].
Shaip 3000 órányi hangadatot gyűjtött össze nagy léptékben, miközben megőrizte a kívánt minőségi szintet, amely a beszédtechnológia képzéséhez szükséges összetett projektekhez. Minden résztvevőtől kifejezett beleegyezési űrlapot vettek.
1. Adatgyűjtés