Manapság van néhány beszélő robotunk chatbotként, virtuális asszisztensként stb. otthonunkban, autórendszereinkben, hordozható készülékeinkben, otthoni automatizálási megoldásainkban stb. Ezek az eszközök pontosan figyelik, mit mondunk és hogyan mondunk, és lekérik az eredményeket vagy végrehajtanak bizonyos feladatokat. .
És ha olyan asszisztenst használtál, mint pl Siri vagy Alexa, akkor azt is észrevennéd, hogy napról napra furcsábbak lesznek. Szellemesek a válaszaik, visszabeszélnek, dühöngnek, bókokat mondanak, és emberibben viselkednek, mint néhány kollégája, akit esetleg ismer. Nem viccelünk. A PwC szerint, a legutóbbi ügyfélszolgálati munkatársával kapcsolatba lépő felhasználók 27%-a nem tudta, hogy emberrel vagy chatbottal beszél.
Az ilyen bonyolult társalgási rendszerek és eszközök fejlesztése rendkívül összetett és ijesztő. Ez egy teljesen más labdajáték, eltérő fejlesztési megközelítésekkel. Ezért úgy gondoltuk, hogy a könnyebb érthetőség érdekében le kell bontanunk. Tehát, ha beszélgetős AI-motort vagy virtuális asszisztenst szeretne fejleszteni, ez az útmutató segít a tisztánlátásban.
A társalgási AI jelentősége
Ahogy a technológia az újabb eszközök és rendszerek formájában egyre szervesebb részévé válik életünknek, felmerül az igény a korlátok leküzdésére, a konvenciók áttörésére és az ezekkel való interakció új módjaira. A csatlakoztatott perifériák, például az egér és a billentyűzet egyszerű használatából a nagyobb kényelmet kínáló egérpadokra váltottunk. Ezután áttértünk az érintőképernyőkre, amelyek további kényelmet kínáltak a bemenetek betáplálásában és a feladatok végrehajtásában.
Azáltal, hogy az eszközök önmagunk kiterjesztéseivé válnak, a hangon keresztüli parancsolás új médiumát szabadítjuk fel. Még csak a közelében sem kell lennünk a készülék használatához. Nincs más dolgunk, mint a hangunk segítségével feloldani, és parancsolni a bemeneteinket. Egy közeli helyiségből, vezetés közben, miközben egyidejűleg másik eszközt használunk, a társalgási AI zökkenőmentesen hajtja végre a tervezett feladatokat. Tehát hol kezdjük – minden a jó minőségű beszédadatokkal kezdődik az ML modellek betanításához.
A beszédképzési adatok gyűjtésének alapjai
Az AI-tanítási adatok gyűjtése és annotálása a társalgási AI-hoz nagyon eltérő. Rengeteg bonyodalmat rejt magában az emberi parancs, és különféle intézkedéseket kell végrehajtani annak biztosítására, hogy minden szempontot figyelembe vegyenek a hatásos eredmények érdekében. Nézzük meg, melyek a beszédadatok néhány alapjai.
Természetes nyelv megértése (NLU)
Ahhoz, hogy a chatbotok és virtuális asszisztensek megértsék és reagáljanak arra, amit küldünk vagy parancsolunk, egy folyamatot hívnak NLU valósul meg. Azt jelenti Természetes nyelv megértése és három technológiai koncepciót foglal magában a különféle bemeneti típusok értelmezésére és feldolgozására.
Elszánt
Minden a szándékkal kezdődik. Mit próbál egy adott felhasználó közvetíteni, kommunikálni vagy elérni egy parancson keresztül? A felhasználó információt keres? Várják a frissítéseket egy akcióhoz? Utasítást adnak a rendszernek a végrehajtására? Hogyan parancsolnak rá? Kérdés vagy kérés révén? Mindezek a szempontok segítenek a gépeknek megérteni és osztályozni a szándékokat és célokat, hogy légmentesen zárható válaszokat adjanak.
Utterance Collection
Különbség van a „Hol van a legközelebbi ATM?” parancs között. és a parancsot: „Keress egy közeli ATM-et”. Az emberek most már elismernék, hogy mindkettő ugyanazt jelenti, de a gépeket ezzel a különbséggel kell magyarázni. A szándékot tekintve megegyeznek, de a szándék formálása teljesen más.
A megnyilatkozások gyűjtése a különböző megnyilatkozások és kifejezések definiálásáról és leképezéséről szól, konkrét célok érdekében a feladatok és válaszok pontos végrehajtása érdekében. Technikailag az adatjegyzetekkel foglalkozó szakemberek beszédadatokon vagy szöveges adatokon dolgoznak, hogy segítsenek a gépeknek ezt megkülönböztetni.
Entitás kivonás
Minden mondatban vannak olyan szavak vagy kifejezések, amelyek súlyozást hordoznak, és ez a hangsúly az, ami a kontextus és a cél értelmezéséhez vezet. A gépeket, akárcsak a merev rendszereket, kanállal kell táplálni az ilyen entitásokat. Például: "Hol találok húrokat a gitáromról a 6th Avenue közelében?"
Ha finomítja a mondatot, a find az entitás egy, a vonósok kettő, a gitár három és a 6. sugárút 4. Ezeket az entitásokat gépek egyesítik, hogy megfelelő eredményeket kapjanak, és hogy ez megtörténjen, szakértők dolgoznak a háttérben.
Készen kapható hang-/beszéd-/audioadatkészletek a társalgási AI-modell gyorsabb betanításához
Párbeszédek tervezése társalgási AI-hoz
Az AI célja elsősorban az emberi viselkedés megismétlése gesztusok, cselekvések és válaszok révén. A tudatos emberi elme veleszületett képességgel rendelkezik, hogy megértse a kontextust, a szándékot, a hangot, az érzelmeket és más tényezőket, és ennek megfelelően reagáljon. De hogyan tudják a gépek megkülönböztetni ezeket a szempontokat?
Dialógusok tervezése társalgási AI nagyon összetett, és ami még fontosabb, meglehetősen lehetetlen univerzális modellt kidolgozni. Mindenkinek más a gondolkodása, a beszéd és a válaszadás módja. Még a válaszokban is egyedien fogalmazzuk meg gondolatainkat. Tehát a gépeknek figyelniük kell, és ennek megfelelően kell reagálniuk.
Azonban ez sem zökkenőmentes. Amikor az emberek beszélnek, olyan tényezők lépnek életbe, mint az ékezetek, a kiejtés, az etnikai hovatartozás, a nyelv stb.. Egy adott szót a gépek számtalan módon megérthetnek, ha egy indiai, egy brit, egy amerikai és egy mexikói diktálják. Rengeteg nyelvi akadály lép életbe, és a válaszrendszer kidolgozásának legpraktikusabb módja a folyamatábra alapú vizuális programozás.
Dedikált blokkon keresztül gesztusok, válaszok és kiváltó okok, a szerzők és a szakértők segíthetnek a gépeknek karaktert kialakítani. Ez inkább olyan, mint egy algoritmusgép, amellyel a megfelelő válaszokat találhatja ki. Amikor egy bemenetet betáplálnak, az információ a megfelelő tényezőkön keresztül áramlik, ami a gépek megfelelő reakciójához vezet.
Tárcsázza a D-t a sokszínűségért
Mint említettük, az emberi interakciók nagyon egyediek. Az emberek szerte a világon különböző társadalmi területekről, hátterükről, nemzetiségükről, demográfiai összetételükről, etnikai hovatartozásukról, akcentusokról, szóhasználatról, kiejtésről stb. származnak.
Ahhoz, hogy egy társalgási bot vagy egy rendszer univerzálisan működőképes legyen, a lehető legkülönbözőbb oktatási adatokkal kell betanítani. Ha például egy modellt csak egy adott nyelv vagy etnikai hovatartozás beszédadataival képeztek ki, egy új akcentus összezavarná a rendszert, és rossz eredményre kényszerítené. Ez nem csak a cégtulajdonosok számára kínos, hanem a felhasználók számára is sértő.
Éppen ezért a fejlesztési szakasznak magában kell foglalnia a mesterséges intelligencia képzési adatait a különböző háttérrel rendelkező emberekből álló, változatos adatkészletekből. Minél több akcentust és etnikumot ismer a rendszere, annál univerzálisabb lenne. Emellett nem az információ helytelen visszakeresése bosszantaná jobban a felhasználókat, hanem az, hogy eleve nem értik meg bemeneteiket.
Az elfogultság megszüntetésének kulcsfontosságú prioritásnak kell lennie, és a vállalatok ennek egyik módja a közösségi forrásból származó adatok választása. Ha a beszéd- vagy szövegadatokat csoportosítja, lehetővé teszi az emberek számára, hogy a világ minden tájáról hozzá tudjanak járulni az Ön igényeihez, így az adatkészlet csak egészségessé válik (Olvassa el blog hogy megértsük az adatok tömeges kiszervezésének előnyeit és buktatóit). Most a modellje megérti a különböző ékezeteket és kiejtéseket, és ennek megfelelően reagál.
Az út előre
A társalgási mesterséges intelligencia fejlesztése ugyanolyan nehéz, mint egy csecsemőt felnevelni. Az egyetlen különbség az, hogy a csecsemő idővel felnő, hogy megértse a dolgokat, és jobban tudjon önállóan kommunikálni. A gépeket kell következetesen tolni. Jelenleg számos kihívás áll ezen a téren, és el kell ismernünk azt a tényt, hogy e kihívások ellenére a legforradalmibb párbeszédes AI-rendszereink vannak. Várjuk meg, mit hoz a jövő a barátságos szomszédságban működő chatbotjaink és virtuális asszisztenseink számára. Eközben, ha társalgási AI-t, például a Google Home-ot kíván beszerezni a vállalkozása számára, Forduljon hozzánk mesterséges intelligencia képzési adataival és megjegyzéseivel kapcsolatban.