Crowd Workers az adatgyűjtéshez

Crowd Workers for Data Collection – az etikus mesterséges intelligencia nélkülözhetetlen része

A robusztus és elfogulatlan mesterségesintelligencia-megoldások kidolgozására tett erőfeszítéseink során helyénvaló, hogy a modelleket elfogulatlan, dinamikus és reprezentatív adatválasztékra oktassuk. Adatgyűjtési folyamatunk rendkívül fontos a hiteles AI-megoldások fejlesztésében. Ezzel kapcsolatban gyűjtés AI képzési adatok tömegmunkásokon keresztül az adatgyűjtési stratégia kritikus aspektusává válik.

Ebben a cikkben vizsgáljuk meg a tömegmunkások szerepét, annak hatását a mesterséges intelligencia fejlesztésére tanulási algoritmusok és ML modellek, valamint az általuk nyújtott szükségletek és előnyök az egész folyamat számára. 

Miért van szükség tömegmunkásokra az AI-modellek készítéséhez?

Emberként rengeteg adatot generálunk, ennek ellenére ezeknek a generált és összegyűjtött adatoknak csak töredéke értékes. Az adat-benchmarking szabványok hiánya miatt az összegyűjtött adatok többsége vagy elfogult, minőségi problémákkal hemzseg, vagy nem reprezentálja a környezetet. Mióta egyre többet gépi tanulás és olyan mély tanulási modelleket fejlesztenek ki, amelyek hatalmas mennyiségű adattal gyarapodnak, egyre inkább érezhető a jobb, újabb és változatosabb adatkészletek iránti igény.

Itt jön a képbe a tömegmunkás.

Crowd-sourcing adatok egy adathalmazt építenek nagy embercsoportok részvételével. A tömegmunkások az emberi intelligenciát mesterséges intelligenciába öntik.

Crowd-sourcing platformok adatgyűjtési és annotációs mikrofeladatokat adjon emberek nagy és szerteágazó csoportjának. A Crowdsourcing lehetővé teszi a vállalatok számára, hogy hatalmas, dinamikus, költséghatékony és méretezhető munkaerőhöz férhessenek hozzá.

A legnépszerűbb közösségi beszerzési platform, az Amazon Mechanical Turk 11 órán belül 15 ezer ember-ember közötti párbeszédet tudott szerezni, és fizetett a dolgozóknak. $0.35 minden sikeres párbeszédre. A tömegmunkásokat ilyen csekély összegért alkalmazzák, rávilágítva az etikus adatbeszerzési szabványok kialakításának fontosságára.

Elméletileg okos tervnek hangzik, mégsem könnyű végrehajtani a stratégiát. A tömegmunkások anonimitása problémákhoz vezetett az alacsony fizetéssel, a munkavállalói jogok figyelmen kívül hagyásával és a rossz minőségű munkával kapcsolatban, amelyek befolyásolják az AI-modell teljesítményét. 

Előnyök, ha tömegmunkások szerzik be az adatokat

A tömegmunkások sokféle csoportjának bevonásával az AI-alapú megoldásfejlesztők gyorsan és viszonylag alacsony költséggel oszthatják meg a mikrofeladatokat, és gyűjthetnek változatos és széles körben elterjedt megfigyeléseket.

A tömegmunkások AI-projektekben történő alkalmazásának néhány kiemelkedő előnye

Az adatgyűjtés előnyökkel jár a tömegmunkásokon keresztül

Gyorsabb piacra jutási idő: A Cognilytica kutatása szerint majdnem 80% of mesterséges intelligencia a projektidőt olyan adatgyűjtési tevékenységekre fordítják, mint az adatok tisztítása, címkézése és összesítése. Az idő mindössze 20%-át fordítják fejlesztésre és képzésre. Az adatok előállítása előtt álló hagyományos akadályok megszűnnek, mivel rövid időn belül nagyszámú közreműködőt lehet toborozni. 

Költséghatékony megoldás: Tömegből származó adatgyűjtés csökkenti a képzésre, toborzásra és bevonásra fordított időt és energiát. Ez kiküszöböli a költség-, idő- és erőforrásigényt, mivel a munkaerőt feladatonkénti fizetési módszerrel alkalmazzák. 

Növeli az adatkészlet sokszínűségét: Az adatok sokfélesége kritikus fontosságú az AI-megoldások teljes képzése szempontjából. Ahhoz, hogy egy modell elfogulatlan eredményeket adjon, sokféle adatkészletre kell betanítani. Az adatok tömeges beszerzésével változatos (földrajzi, nyelvi, nyelvjárási) adatkészletek generálhatók kis erőfeszítéssel és költséggel.

Javítja a méretezhetőséget: Ha megbízható tömegmunkásokat toboroz, akkor biztos lehet benne jó minőségű adatgyűjtés, amely méretezhető a projekt igényei alapján.

Házon belüli kontra crowdsourcing – Ki lesz a győztes?

Házon belüli adatokCrowdsourced adatok
Az adatok pontossága és következetessége garantálható.Az adatok minősége, pontossága és konzisztenciája fenntartható, ha megbízható közösségi beszerzési platformokat alkalmaznak szabványos minőségbiztosítási intézkedésekkel
A házon belüli adatbeszerzés nem mindig praktikus döntés, mivel előfordulhat, hogy a házon belüli csapat nem felel meg a projekt igényeinek.Az adatok sokfélesége biztosítható, mivel lehetőség van a tömegmunkások heterogén csoportjának toborzására a projekt igényei alapján.
Drága a projekt igényeinek megfelelő munkavállalók toborzása és betanítása.Költséghatékony megoldás a adatgyűjtés mivel kevesebb befektetéssel lehetséges a munkavállalók toborzása, betanítása és bevonása.
A piacra kerülés ideje hosszú, mivel a házon belüli adatgyűjtés jelentős időt vesz igénybe.A piacra kerülés ideje lényegesen rövidebb, mivel sok hozzájárulás gyorsan érkezik.
Házon belüli közreműködők és címkézők kis csoportjaA közreműködők nagy és sokszínű csoportja és adatcímkézők
Az adatok bizalmassága nagyon magas a házon belüli csapattal.Az adatok titkosságát nehéz fenntartani, ha világszerte nagy tömegű munkavállalókkal dolgozunk.
Könnyebb nyomon követni, betanítani és értékelni az adatgyűjtőketKihívást jelent az adatgyűjtők nyomon követése és képzése.

A crowdsource dolgozói és a kérelmező közötti szakadék áthidalása.

A szakadék áthidalása a crowdsource-munkások és a kérelmező között Nagyon nagy szükség van a tömegmunkások és a kérők közötti szakadék áthidalására, nem csak a fizetés terén.

A kérelmező részéről nyilvánvaló információhiány tapasztalható, mivel a dolgozók csak az adott feladatról kapnak tájékoztatást. Például, bár a dolgozók olyan mikrofeladatokat kapnak, mint a dialektusok anyanyelvükön történő rögzítése, ritkán biztosítanak kontextust. Nem rendelkeznek a szükséges információval arról, hogy miért csinálják, amit csinálnak, és hogyan tehetik a legjobban. Ez az információhiány hatással van a a tömegből származó munka minősége.

Egy emberi lény számára a teljes kontextus világosságot és célt ad a munkájukhoz.

Adjunk hozzá ehhez a keverékhez az NDA egy másik dimenzióját – a titoktartási megállapodásokat, amelyek korlátozzák a tömegmunkás által biztosított információ mennyiségét. A tömegmunkások szemszögéből nézve ez az információvisszavonás a bizalom hiányát és a munkájuk fontosságának csökkenését mutatja.

Ha ugyanazt a helyzetet a spektrum másik végéről nézzük, akkor a munkavállaló oldaláról hiányzik az átláthatóság. A kérelmező nem érti teljesen a munka elvégzésére megbízott munkavállalót. Egyes projektek meghatározott típusú munkavállalót igényelhetnek; azonban a legtöbb projektben van kétértelműség. Az földi igazság ez bonyolíthatja az értékelést, a visszajelzést és a képzést.

E nehézségek leküzdése érdekében fontos, hogy olyan adatgyűjtési szakértőkkel dolgozzunk együtt, akik sokrétű, válogatott és jól reprezentált adatokat szolgáltatnak a közreműködők széles választékától.

Ha Shaip adatpartnerként választja, számos előnnyel járhat. Az adatok sokféleségére és reprezentatív eloszlására összpontosítunk. Tapasztalt és elhivatott munkatársaink megértik az egyes projektek kényszereit, és olyan adatkészleteket fejlesztenek ki, amelyek pillanatok alatt robusztus AI-alapú megoldásokat képezhetnek.

[Olvassa el még: AI Training Data Starter Guide: definíció, példa, adatkészletek]

Közösségi megosztás