A természetes nyelvi feldolgozás a gépi tanulási páncél létfontosságú része. A modell megfelelő működéséhez azonban hatalmas mennyiségű adatra és képzésre van szükség. Az NLP-vel kapcsolatos egyik jelentős probléma a képzési adatkészletek hiánya, amelyek a tartományon belül széles érdeklődési köröket lefedhetnek.
Ha ezen a hatalmas területen kezdi a munkát, kihívást és gyakorlatilag feleslegesnek találhatja az adatkészletek létrehozását. Főleg ha minőség van NLP rendelkezésre álló adatkészletek a gépi tanulási modellek céljuk szerinti betanításához.
Az NLP-piac a tervek szerint 11.7%-os CAGR-növekedést fog elérni 2018-ban és 2026-ban. 28.6 milliárd dollár 2026-ig. Az NLP és a gépi tanulás iránti növekvő keresletnek köszönhetően most már lehetőség nyílik olyan minőségi adatkészletek megismerésére, amelyek alkalmasak a hangulatelemzésre, az áttekintésekre, a kérdések és válaszok elemzésére, valamint a beszédelemzési adatkészletekre.
A megbízható NLP-adatkészletek a gépi tanuláshoz
Mivel szinte minden nap számtalan – különféle igényekre összpontosító – adatkészlet kerül kiadásra, kihívást jelenthet a minőségi, megbízható és legjobb adatkészletekhez való hozzáférés. Itt megkönnyítettük az Ön munkáját, mivel az általuk kiszolgált kategóriák alapján elkülönített, válogatott adatkészleteket mutattunk be.
általános
Az UCI Spambase (Link)
A Hewlett-Packard Labs által létrehozott Spambase a felhasználóktól származó spam e-mailek gyűjteményét tartalmazza, célja egy személyre szabott spamszűrő kialakítása. Több mint 4600 megfigyelést tartalmaz e-mail üzenetekből, amelyek közül közel 1820 spam.
Enron adatkészlet (Link)
Az Enron adatkészlet anonimizált „valódi” e-mailek hatalmas gyűjteményével áll a nyilvánosság rendelkezésére, hogy megtanítsák gépi tanulási modelljeit. Több mint félmillió e-mailt tartalmaz több mint 150 felhasználótól, elsősorban az Enron felső vezetésétől. Ez az adatkészlet strukturált és strukturálatlan formátumban is használható. A strukturálatlan adatok felfrissítéséhez adatfeldolgozási technikákat kell alkalmazni.
Recommender Systems adatkészlet (Link)
A Recommender System adatkészlet különféle adatkészletek hatalmas gyűjteménye, amelyek különböző funkciókat tartalmaznak, mint pl.
- Termék vélemények
- Csillagok értékelése
- Fitness nyomon követése
- A dal adatai
- Közösségi hálózatok
- Időbélyegek
- Felhasználó/elem interakciók
- GPS adatok
Érzelmi elemzés
Szótárak filmekhez és pénzügyekhez (Link)
A Dictionaries for Movies and Finance adatkészlet domain-specifikus szótárakat biztosít a pénzügyi kitöltések és filmkritikák pozitív vagy negatív polaritásához. Ezek a szótárak IMDb és US Form-8 kitöltésekből származnak.
Érzelem 140 (Link)
A Sentiment 140 több mint 160,000 6 tweetet tartalmaz különféle hangulatjelekkel, amelyek XNUMX különböző mezőbe vannak besorolva: tweet dátuma, polaritása, szövege, felhasználónév, azonosító és lekérdezés. Ez az adatkészlet lehetővé teszi, hogy felfedezze egy márka, egy termék vagy akár egy téma hangulatát a Twitter tevékenysége alapján. Mivel ez az adatkészlet automatikusan jön létre, ellentétben más, ember által jegyzett tweetekkel, ezért a pozitív és negatív érzelmeket tartalmazó tweeteket kedvezőtlennek minősíti.
Multi-Domain Sentiment adatkészlet (Link)
Ez a több tartományra kiterjedő hangulatadatkészlet különféle termékekre vonatkozó Amazon-vélemények tárháza. Egyes termékkategóriákban, például a könyvekben, több ezres, míg másoknak csak néhány száz véleménye van. Emellett a csillagos értékelésű vélemények bináris címkékké alakíthatók.
szöveg
A Wiki minőségbiztosítási korpusz (Link)
A nyitott kérdések és válaszok kutatásának elősegítésére létrehozott WiKi QA Corpus az egyik legkiterjedtebb nyilvánosan elérhető adatkészlet. A Bing keresőmotor lekérdezési naplóiból összeállított, kérdés-felelet párokat tartalmaz. Több mint 3000 kérdést és 1500 felcímkézett válaszmondatot tartalmaz.
Jogi esetjelentések adatkészlete (Link)
A Jogi esetjelentések adatkészlete 4000 jogi esetet tartalmaz, és felhasználható az automatikus szövegösszegzés és hivatkozáselemzés képzésére. Minden dokumentumot, főmondatokat, hivatkozási osztályokat, hivatkozási jelszavakat és egyebeket használnak.
Veszély (Link)
A Jeopardy adatkészlet több mint 200,000 XNUMX kérdés gyűjteménye, amelyek egy Reddit-felhasználó által összeállított népszerű kvíz TV-műsorban szerepelnek. Minden adatpont a sugárzás dátuma, az epizód száma, az érték, a kör és a kérdés/válasz szerint van besorolva.
Hangbeszéd
Beszélt Wikipédia Corpora (Link)
Ez az adatkészlet tökéletes mindenki számára, aki túl szeretne lépni az angol nyelven. Ez az adatkészlet hollandul, németül és angolul beszélt cikkeket tartalmaz. Sokféle témát és hangszórókészletet tartalmaz, amelyek több száz órán át tartanak.
2000 HUB5 angol (Link)
A 2000-es HUB5 angol adatkészlet 40 angol nyelvű telefonbeszélgetési átiratot tartalmaz. Az adatokat a Nemzeti Szabványügyi és Technológiai Intézet szolgáltatja, és főként a társalgási beszéd felismerésére és a beszéd szöveggé alakítására összpontosít.
LibriSpeech (Link)
A LibriSpeech adatkészlet csaknem 1000 órányi angol beszéd gyűjteménye hangoskönyvekből, amelyeket témák szerint fejezetekre bontottak, így tökéletes eszköz a természetes nyelvi feldolgozáshoz.
Vélemények
Yelp-vélemények (Link)
A Yelp adatkészlet mintegy 8.5 millió véleménynyilvánítást tartalmaz több mint 160,000 200,000 vállalkozásról, azok értékeléseiről és felhasználói adatokról. Az áttekintések felhasználhatók arra, hogy modelljeit hangulatelemzésre tanítsa. Ezenkívül ez az adatkészlet több mint XNUMX XNUMX képet tartalmaz nyolc nagyvárosi helyszínről.
IMDB vélemények (Link)
Az IMDB-vélemények a legnépszerűbb adatkészletek közé tartoznak, amelyek több mint 50 ezer film szereplőire vonatkozó információkat, értékeléseket, leírásokat és műfajokat tartalmaznak. Ez az adatkészlet használható a gépi tanulási modellek tesztelésére és betanítására.
Amazon értékelések és értékelések adatkészlete (Link)
Az Amazon értékelési és értékelési adatkészlete az Amazon különböző termékeiről 1996 és 2014 között gyűjtött metaadatok és értékelések értékes gyűjteményét tartalmazza – körülbelül 142.8 millió rekordot. A metaadatok tartalmazzák az árat, a termékleírást, a márkát, a kategóriát és egyebeket, míg a vélemények tartalmazzák a szöveg minőségét, a szöveg hasznosságát, az értékeléseket stb.
Tehát melyik adatkészletet választotta gépi tanulási modelljének betanításához?
Ahogy megyünk, hagyunk neked a Profi tipp.
Mielőtt kiválasztaná az igényeinek megfelelő NLP-adatkészletet, alaposan tanulmányozza át a README fájlt. Az adatkészlet tartalmazza az összes szükséges információt, amelyre szüksége lehet, például az adatkészlet tartalmát, a különböző paramétereket, amelyek alapján az adatokat kategorizálták, és az adatkészlet valószínű felhasználási eseteit.
Függetlenül attól, hogy milyen modelleket készít, izgalmas kilátás nyílik arra, hogy gépeinket szorosabban és lényegileg integráljuk életünkbe. Az NLP segítségével az üzleti élet, a filmek, a beszédfelismerés, a pénzügy és egyebek lehetőségei többszörösére nőnek. Ha több ilyen adatkészletet keres Kattints ide.