NLP adatkészlet ML-hez

15 legjobb NLP-adatkészlet a természetes nyelvi feldolgozási modellek betanításához

A természetes nyelvi feldolgozás a gépi tanulási páncél létfontosságú része. A modell megfelelő működéséhez azonban hatalmas mennyiségű adatra és képzésre van szükség. Az NLP-vel kapcsolatos egyik jelentős probléma a képzési adatkészletek hiánya, amelyek a tartományon belül széles érdeklődési köröket lefedhetnek.

Ha ezen a hatalmas területen kezdi a munkát, kihívást és gyakorlatilag feleslegesnek találhatja az adatkészletek létrehozását. Főleg ha minőség van NLP rendelkezésre álló adatkészletek a gépi tanulási modellek céljuk szerinti betanításához.

Az NLP-piac a tervek szerint 11.7%-os CAGR-növekedést fog elérni 2018-ban és 2026-ban. 28.6 milliárd dollár 2026-ig. Az NLP és a gépi tanulás iránti növekvő keresletnek köszönhetően most már lehetőség nyílik olyan minőségi adatkészletek megismerésére, amelyek alkalmasak a hangulatelemzésre, az áttekintésekre, a kérdések és válaszok elemzésére, valamint a beszédelemzési adatkészletekre.

A megbízható NLP-adatkészletek a gépi tanuláshoz

Mivel szinte minden nap számtalan – különféle igényekre összpontosító – adatkészlet kerül kiadásra, kihívást jelenthet a minőségi, megbízható és legjobb adatkészletekhez való hozzáférés. Itt megkönnyítettük az Ön munkáját, mivel az általuk kiszolgált kategóriák alapján elkülönített, válogatott adatkészleteket mutattunk be.

általános

A Hewlett-Packard Labs által létrehozott Spambase a felhasználóktól származó spam e-mailek gyűjteményét tartalmazza, célja egy személyre szabott spamszűrő kialakítása. Több mint 4600 megfigyelést tartalmaz e-mail üzenetekből, amelyek közül közel 1820 spam.

Az Enron adatkészlet anonimizált „valódi” e-mailek hatalmas gyűjteményével áll a nyilvánosság rendelkezésére, hogy megtanítsák gépi tanulási modelljeit. Több mint félmillió e-mailt tartalmaz több mint 150 felhasználótól, elsősorban az Enron felső vezetésétől. Ez az adatkészlet strukturált és strukturálatlan formátumban is használható. A strukturálatlan adatok felfrissítéséhez adatfeldolgozási technikákat kell alkalmazni.

  • Recommender Systems adatkészlet (Link)

A Recommender System adatkészlet különféle adatkészletek hatalmas gyűjteménye, amelyek különböző funkciókat tartalmaznak, mint pl.

  • Termék vélemények
  • Csillagok értékelése
  • Fitness nyomon követése
  • A dal adatai
  • Közösségi hálózatok
  • Időbélyegek
  • Felhasználó/elem interakciók
  • GPS adatok

Érzelmi elemzés

  • Szótárak filmekhez és pénzügyekhez (Link)

Hangulatelemzés
A Dictionaries for Movies and Finance adatkészlet domain-specifikus szótárakat biztosít a pénzügyi kitöltések és filmkritikák pozitív vagy negatív polaritásához. Ezek a szótárak IMDb és US Form-8 kitöltésekből származnak.

A Sentiment 140 több mint 160,000 6 tweetet tartalmaz különféle hangulatjelekkel, amelyek XNUMX különböző mezőbe vannak besorolva: tweet dátuma, polaritása, szövege, felhasználónév, azonosító és lekérdezés. Ez az adatkészlet lehetővé teszi, hogy felfedezze egy márka, egy termék vagy akár egy téma hangulatát a Twitter tevékenysége alapján. Mivel ez az adatkészlet automatikusan jön létre, ellentétben más, ember által jegyzett tweetekkel, ezért a pozitív és negatív érzelmeket tartalmazó tweeteket kedvezőtlennek minősíti.

  • Multi-Domain Sentiment adatkészlet (Link)

Ez a több tartományra kiterjedő hangulatadatkészlet különféle termékekre vonatkozó Amazon-vélemények tárháza. Egyes termékkategóriákban, például a könyvekben, több ezres, míg másoknak csak néhány száz véleménye van. Emellett a csillagos értékelésű vélemények bináris címkékké alakíthatók.

Beszélgessünk ma az AI képzési adatokkal kapcsolatos követelményeiről.

szöveg

  • A Wiki minőségbiztosítási korpusz (Link)

A nyitott kérdések és válaszok kutatásának elősegítésére létrehozott WiKi QA Corpus az egyik legkiterjedtebb nyilvánosan elérhető adatkészlet. A Bing keresőmotor lekérdezési naplóiból összeállított, kérdés-felelet párokat tartalmaz. Több mint 3000 kérdést és 1500 felcímkézett válaszmondatot tartalmaz.

  • Jogi esetjelentések adatkészlete (Link)

A Jogi esetjelentések adatkészlete 4000 jogi esetet tartalmaz, és felhasználható az automatikus szövegösszegzés és hivatkozáselemzés képzésére. Minden dokumentumot, főmondatokat, hivatkozási osztályokat, hivatkozási jelszavakat és egyebeket használnak.

A Jeopardy adatkészlet több mint 200,000 XNUMX kérdés gyűjteménye, amelyek egy Reddit-felhasználó által összeállított népszerű kvíz TV-műsorban szerepelnek. Minden adatpont a sugárzás dátuma, az epizód száma, az érték, a kör és a kérdés/válasz szerint van besorolva.

Hangbeszéd

  • Beszélt Wikipédia Corpora (Link)

Hangbeszéd Ez az adatkészlet tökéletes mindenki számára, aki túl szeretne lépni az angol nyelven. Ez az adatkészlet hollandul, németül és angolul beszélt cikkeket tartalmaz. Sokféle témát és hangszórókészletet tartalmaz, amelyek több száz órán át tartanak.

A 2000-es HUB5 angol adatkészlet 40 angol nyelvű telefonbeszélgetési átiratot tartalmaz. Az adatokat a Nemzeti Szabványügyi és Technológiai Intézet szolgáltatja, és főként a társalgási beszéd felismerésére és a beszéd szöveggé alakítására összpontosít.

A LibriSpeech adatkészlet csaknem 1000 órányi angol beszéd gyűjteménye hangoskönyvekből, amelyeket témák szerint fejezetekre bontottak, így tökéletes eszköz a természetes nyelvi feldolgozáshoz.

Vélemények

A Yelp adatkészlet mintegy 8.5 millió véleménynyilvánítást tartalmaz több mint 160,000 200,000 vállalkozásról, azok értékeléseiről és felhasználói adatokról. Az áttekintések felhasználhatók arra, hogy modelljeit hangulatelemzésre tanítsa. Ezenkívül ez az adatkészlet több mint XNUMX XNUMX képet tartalmaz nyolc nagyvárosi helyszínről.

Az IMDB-vélemények a legnépszerűbb adatkészletek közé tartoznak, amelyek több mint 50 ezer film szereplőire vonatkozó információkat, értékeléseket, leírásokat és műfajokat tartalmaznak. Ez az adatkészlet használható a gépi tanulási modellek tesztelésére és betanítására.

  • Amazon értékelések és értékelések adatkészlete (Link)

Az Amazon értékelési és értékelési adatkészlete az Amazon különböző termékeiről 1996 és 2014 között gyűjtött metaadatok és értékelések értékes gyűjteményét tartalmazza – körülbelül 142.8 millió rekordot. A metaadatok tartalmazzák az árat, a termékleírást, a márkát, a kategóriát és egyebeket, míg a vélemények tartalmazzák a szöveg minőségét, a szöveg hasznosságát, az értékeléseket stb.

Tehát melyik adatkészletet választotta gépi tanulási modelljének betanításához?

Ahogy megyünk, hagyunk neked a Profi tipp. 

Mielőtt kiválasztaná az igényeinek megfelelő NLP-adatkészletet, alaposan tanulmányozza át a README fájlt. Az adatkészlet tartalmazza az összes szükséges információt, amelyre szüksége lehet, például az adatkészlet tartalmát, a különböző paramétereket, amelyek alapján az adatokat kategorizálták, és az adatkészlet valószínű felhasználási eseteit.

Függetlenül attól, hogy milyen modelleket készít, izgalmas kilátás nyílik arra, hogy gépeinket szorosabban és lényegileg integráljuk életünkbe. Az NLP segítségével az üzleti élet, a filmek, a beszédfelismerés, a pénzügy és egyebek lehetőségei többszörösére nőnek. Ha több ilyen adatkészletet keres Kattints ide.

Közösségi megosztás

Még szintén kedvelheted