Nyissa meg az adatkészleteket
Fedezzen fel nyílt forráskódú adatkészleteket, amelyek segítségével ML modelleket oktathat
Nyílt forráskódú adatkészletek az AI/ML modellek használatának megkezdéséhez
Az AI és ML modelljeinek kimenete csak olyan jó, mint az adatok, amelyeket a képzéséhez használ - tehát fontos az adatok összesítésénél alkalmazott pontosság, valamint az adatok címkézése és azonosítása!
Tehát, ha új AI / ML kezdeményezést szeretne indítani, és most hamar rájön, hogy a jó minőségű képzési adatok megtalálása a projekt egyik legnagyobb kihívást jelentő aspektusa lesz, mivel a kiváló minőségű adathalmazok tartják az AI-t / ML motor jár. Összegyűjtöttük a nyitott adatkészletek listáját, amelyek szabadon használhatják és képezhetik a jövő AI / ML modelljeit.
specializálódás | Adattípus | Adatkészlet neve | Ipar / Tanszék | Megjegyzés / felhasználási eset | Leírás | Link |
---|---|---|---|---|---|---|
NLP | szöveg | Amazon vélemények | E-kereskedelem | Érzelmi elemzés | Az elmúlt 35 év 18 millió véleménye és értékelése egyszerű szövegben, a felhasználó és a termék részleteivel. | Link |
NLP | szöveg | A Wikipedia Links adatai | általános | Több mint 4 Mn. cikkek, amelyek 1.9 Mrd. szó, amely szavakból és kifejezésekből, valamint bekezdésekből áll. | Link | |
NLP | szöveg | Standford Sentiment Treebank | Szórakozás | Érzelmi elemzés | Az Rozsdás paradicsom több mint 10,000 XNUMX darab véleményének kommentálási adatállománya HTML fájl formátumban | Link |
NLP | szöveg | Twitter amerikai légitársaság hangulat | Légitársaság | Érzelmi elemzés | 2015-ben a US Airlines tweetjei pozitív, negatív és semleges hangokra osztódtak | Link |
CV | Kép | Címkézett arcok a vadonban | általános | Arcfelismerés | Több mint 13,000 XNUMX kivágott arcot tartalmazó, két különböző képpel rendelkező adatkészlet az arcfelismerő képzéshez. | Link |
CV | Videó, kép | UMDFaces adatkészlet | általános | Arcfelismerés | Annotált adatkészlet, amely több mint 367,000 8,000 arcot tartalmaz, több mint XNUMX alanyból, állóképeket és videofelvételeket is tartalmaz. | Link |
CV | Kép | Imagenet | általános | 14 millió feletti adatkészlet képek különböző fájlformátumokban, a WordNet hierarchiája szerint rendezve. | Link | |
CV | Kép | A Google nyílt képei | általános | 9 Mn. URL-ek a nyilvános képek kategorizálására több mint 6,000 kategóriából. | Link | |
NLP | szöveg | MIMIC Critical Care adatbázis | Egészségügy | Számítási élettani adatkészletek 40,000 XNUMX kritikus gondozású beteg azonosított adataival. Az adatkészlet olyan információkat tartalmaz, mint a demográfia, az életjelek, a gyógyszerek stb. | Link | |
CV | Kép | Az Egyesült Államok Nemzeti Utazási és Idegenforgalmi Hivatala | Idegenforgalom | Széleskörű fényképeket nyújt az idegenforgalmi ágazattól, megbízható adatbázisokkal, amelyek olyan témákat tartalmaznak, mint a bejövő és kimenő utazások, valamint a nemzetközi turisztikai információk. | Link | |
NLP | szöveg | Közlekedési Minisztérium | Idegenforgalom | Turisztikai adatkészletek, amelyek tartalmazzák a nemzeti parkokat, a járművezetői nyilvántartásokat, a hidakat és a vasúti információkat stb. | Link | |
NLP | Audio | Flickr Audio Felirat Corpus | általános | 40 fénykép több mint 8,000 ezer szóbeli felirata felügyelet nélküli beszédmintákhoz | Link | |
NLP | Audio | Beszédparancsok adatkészlete | általános | Beszédfelismerés, hangjegyzetek | 1 másodperc hosszú szólások ezer embertől az alapvető hangfelület kiépítéséhez. | Link |
NLP | Audio | Környezetvédelmi adatkészletek | általános | Környezetvédelmi adatkészletek, amelyek az eseménytáblák és az akusztikus jelenetek táblázatait tartalmazzák. | Link | |
NLP | szöveg | COVID-19 nyílt kutatási adatkészlet | Egészségügy | Orvosi AI | 45,000 19 tudományos cikkből álló kutatási adatkészlet a COVID-XNUMX-ről és a koronavírus-víruscsaládról. | Link |
CV | Kép | Waymo Nyissa meg az adatkészletet | Autóipari | A Waymo által kiadott legváltozatosabb autonóm vezetési adatkészletek | Link | |
CV | Kép | Labelme | Public Korm. | A jegyzetekkel ellátott képek nagy sora elérhető a Labelme Matlab-on keresztül | Link | |
CV | Kép | COIL100 | általános | Több mint 100 különböző tárgy, több szögből (azaz 360 fokból) fotográfálva | Link | |
CV | Kép | Stanford Dogs adatkészlet | általános | Több mint 20,500 120+ kép XNUMX különböző kutyafajta képsorba kategorizálva | Link | |
CV | Kép | Beltéri jelenetfelismerés | általános | Jelenetfelismerés | Speciális adatkészlet, amely 15620 képből áll 67 beltéri kategóriában, jelenetfelismerési modellek készítéséhez | Link |
CV | Kép | VisualQA | általános | Adatkészlet, amely nyitott kérdéseket tartalmaz 265,016 XNUMX fotóval kapcsolatban, amelyek válaszához a látás megértése és a nyelv megértése szükséges. | Link | |
NLP | szöveg | Multidomain Sentiment Analysis adatkészlet | E-kereskedelem | Érzelmi elemzés | Az Amazon termékismertetőit tartalmazó adatkészlet | Link |
NLP | szöveg | IMDB vélemények | Szórakozás | Érzelmi elemzés | 25000 filmszemlét tartalmazó adatkészlet az érzelmek elemzéséhez | Link |
NLP | szöveg | Érzés140 | általános | Érzelmi elemzés | Adatkészlet, amely 160,000 XNUMX tweetet tartalmaz, előre eltávolított hangulatjelekkel a nagyobb pontosság érdekében | Link |
NLP | szöveg | Blogger -korpusz | általános | Kulcsmondat -analízis | Adatkészlet, amely 681,288 200 blogbejegyzést tartalmaz a blogger.com webhelyről, amely legalább XNUMX előfordulást tartalmaz, széles körben használt angol szavakból. | Link |
NLP | szöveg | Veszély | általános | Chatbot képzés | Több mint 200,000 XNUMX kérdést tartalmazó adatkészlet, amely felhasználható a gépi tanulási modellek intelligens automatikus válaszadására | Link |
NLP | szöveg | SMS Spam Collection angol nyelven | Telecom | Spam felismerés | 5,574 angol SMS-ből álló spam üzenet adatkészlet | Link |
NLP | szöveg | Yelp-vélemények | általános | Érzelmi elemzés | A Yelp által közzétett több mint 5 millió áttekintésű adatkészlet | Link |
NLP | szöveg | Az UCI Spambase | Vállalkozás | Spam felismerés | Nagy mennyiségű spam e-mail, amely hasznos a spam szűrésére. | Link |
CV | Videó, kép | Berkeley DeepDrive BDD100k | Autóipari | Autonóm járművek | Az önvezető AI-k egyik legnagyobb adatállománya, amely 1,100 óra vezetési élményt tartalmaz, több mint 100,000 XNUMX videóban, a nap különböző szakaszaiból, New York és San Francisco környékéről. | Link |
CV | videó | Vessző.ai | Autóipari | Autonóm járművek | 7 órás autópálya-vezetési adatkészlet, amely információkat tartalmaz az autó sebességéről, gyorsulásáról, kormányzási szögéről és GPS-koordinátáiról | Link |
CV | Videó, kép | Városkép-adatkészlet | Autóipari | Szemantikus címke az autonóm jármű számára | 5,000 pixel szintű kommentár, valamint egy nagyobb, 20,000 50 gyengén jegyzett képkocka készlet sztereó videoszekvenciákban, XNUMX különböző városból rögzítve | Link |
CV | Kép | KUL Belgium közlekedési tábla adatkészlet | Autóipari | Autonóm járművek | Több mint 10000+ közlekedési tábla kommentárja a Flandria régióból, fizikailag elkülönülő közlekedési táblák alapján Belgium-szerte. | Link |
CV | Kép | LISA: Intelligens és biztonságos személygépkocsik laboratóriuma, UC San Diego Adatkészletek | Autóipari | Autonóm járművek | Gazdag adatkészlet, amely közlekedési táblákat, járművek észlelését, közlekedési lámpákat és pályamintákat tartalmaz. | Link |
CV | Kép | CIFAR-10 | általános | Objektum felismerés | 50,000 10,000 képből és 60,000 32 tesztképből álló adatkészlet (azaz 32 10 XNUMX × XNUMX színes kép XNUMX osztályban) objektumfelismerés céljából. | Link |
CV | Kép | Divat MNIST | Divat | Képadatkészlet, amely 60,000 10,000 példából áll, és 28 28 példányból álló tesztkészlet 10 × XNUMX szürkeárnyalatos képben, XNUMX osztály címkéjéhez társítva. | Link | |
CV | Kép | IMDB-Wiki adatkészlet | Szórakozás | Arcfelismerés | Az arcképek nagy gyűjteménye olyan címkékkel, mint a nem és az életkor. Az összes 523,051 460,723 arckép közül 20,284 62,328 képet kapunk XNUMX XNUMX hírességtől az IMDB-től és XNUMX XNUMX a Wikipédiától. | Link |
CV | videó | Kinetika-700 | általános | Minden kiváló minőségű adatkészlet 650,000 700 videoklipből áll, és 600 emberi cselekvési osztályt, legalább 10 videoklipet tartalmaz. Itt minden klip körülbelül XNUMX másodpercig tart. | Link | |
CV | Kép | MS Coco | általános | Tárgyfelismerés, szegmentálás | Az adatkészlet 328 ezer képet tartalmaz, és összesen 2.5 millió Mn példányt és 91 objektum képet tartalmaz a nagyszabású objektum-észleléssel, szegmentálással és adatfelirattal kapcsolatos ML modellek kiképzésére. | Link |
CV | Kép | MPII Emberi póz adatkészlet | általános | Körülbelül 25K fénykép, amely több mint 40K egyéniséget tartalmaz annotált testízületekkel, szerepel az adatkészletben, amelyet az emberi pózbecslés artikulálására használnak. Összességében az adatkészlet 410 emberi tevékenységet fed le, és mindegyik kép egy tevékenységcímkével van ellátva. | Link | |
CV | Kép | Nyissa meg a Képeket | általános | Az objektum helyének kommentárjai | Képadatkészlet körülbelül 9 millió képpel, képszintű címkékkel, objektumhatároló dobozokkal, objektumszegmentálással stb. Kommentálva. határoló dobozok 16 objektumosztályhoz 600 millió képen. | Link |
CV | Videó, kép | Argo, Argo, USA | Autóipari | Határoló doboz, optikai áramlás, viselkedési címke, szemantikus címke, sávjelölés | Önvezető adatkészlet, amely geometriai és szemantikai metaadatokkal, azaz sáv középvonalakkal, sáv irányával és vezethető területtel rendelkező HD térképekből áll. Az adatsort ML modellek képzésére, pontosabb észlelési algoritmusok készítésére használják, amelyek elősegítik az önvezető járművek biztonságos közlekedését. | Link |
CV | videó | Bosch kis közlekedési lámpák, a Bosch North America Research munkatársa | Autóipari | Határoló doboz | 13427 kameraképet tartalmazó, 1280 * 720 felbontású adatkészlet a látásalapú közlekedési lámpa érzékelő rendszer kiépítéséhez. Az adatkészlet több mint 24000 feljegyzett lámpával rendelkezik. | Link |
CV | videó | Brain4Cars, Cornell Univ., Egyesült Államok | Autóipari | Viselkedési címke | Adatkészlet, amely a kabin érzékelőinek tömbjéből áll (kamerák, tapintható érzékelők, intelligens eszközök stb.), Hogy hasznos statisztikákat nyerhessenek ki a vezető éberségéről. Algoritmusaink érzékelhetik az álmos vagy zavaró járművezetőket, és növelhetik a szükséges riasztásokat a védelem javítása érdekében. | Link |
CV | Kép | CULane, a kínai univ. Hong Kong, Peking, Kína | Autóipari | Sávjelölés | A forgalmi sávok észlelésére szolgáló Computer Vision adatkészlet, amely 55 órányi videót tartalmaz, amelyekből 133,235 88880 (9675 képzési készlet, 34680 érvényesítési készlet és XNUMX teszt készlet) képkockát vontak ki. Ezt hat különböző járműre szerelt kamerák gyűjtötték össze, amelyeket Pekingben különböző sofőrök irányítottak. | Link |
CV | videó | DAVIS, az Univ. Zürich, ETH ¨ Zürich, Németország, Svájc | Autóipari | Végpontok közötti járművezető-képzési adatkészlet, amely DAVIS event + frame kamerát használ. Az autóadatokat, például a kormányzást, a fojtószelepet, a GPS-t stb. Használják az autóipari alkalmazások keret- és eseményadatainak összeolvadásának értékelésére. | Link | |
CV | videó | DBNet, Sanghaj Jiao Tong Univ., Xiamen Univ., Kína | Autóipari | Pontfelhő, LiDAR | Valós 1000 km-es vezetési adatok, amelyek összehangolt videót, pontfelhőt, GPS-t és a vezető viselkedését tartalmazzák a vezetési viselkedés alapos kutatásához. | Link |
CV | videó | Dr (szem) ve, az Univ. Modena és Reggio Emilia, Modena, Olaszország | Autóipari | Viselkedési címke | Adatkészlet, amely egyenként 74 perces 5 videoszekvenciát tartalmaz, és amelyeket több mint 500,000 XNUMX képkockán jegyzeteltek. Az adatkészlet a földrajzi hivatkozásokból álló helyekből, a menetsebességből, a tanfolyamból áll, valamint a járművezetőknek a tekintetek rögzítését és azok időbeli integrációját felajánlja, feladatspecifikus térképeket biztosítva. | Link |
CV | videó | ETH Gyalogos (2009), készítette: ETH Zürich, Zürich, Svájc | általános | Határoló doboz | 74, egyenként 5 perces 500,000 videósorozatból álló adatkészlet, több mint XNUMX XNUMX képkocka annotációval. Az adatkészlet földrajzi hivatkozásokat tartalmaz, a menetsebességet, az irányt, és felcímkézi a tekintetek rögzítését a járművezetők számára és azok időbeli integrációját, beleértve a feladatspecifikus térképeket is. | Link |
CV | videó | Ford (2009), készítette: Univ. Michigan, Michigan, USA | Autóipari | Bounding Box,, LiDAR | Adatkészlet, amelyet egy Velodyne 3D-lidar szkennerrel, két előretekintő, előre tekintő Rieg lidarral, egy műszaki és fogyasztói inerciális mérőegységgel (IMU), valamint egy Point Grey Ladybug3 körsugárzó kamerarendszerrel felfegyverzett automatizált szárazföldi jármű állított össze. | Link |
CV | videó | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Németország | általános | Adatkészlet több millió képkockával rögzített videójelenetekből, amelyek sokféle időjárási körülményt, több mozgási és mélységi réteget tartalmaznak; helyzetek a városban és a vidéken stb. | Link | |
CV | videó | JAAD, a York Egyetem, Ukrajna, Kanada | Autóipari | Határoló doboz, Viselkedési címke | "A JAAD egy olyan adatkészlet, amely az önálló vezetés összefüggésében tanulmányozza a közös figyelmet. A hangsúly a gyalogosok és a sofőrök viselkedésén van az átkelés helyén és az őket befolyásoló tényezőkön. Ennek érdekében a JAAD adatkészlet gazdag jegyzetekkel ellátott 346 rövid videó gyűjteményt nyújt klipek (5-10 másodperc hosszúságú), több mint 240 órás vezetési felvételből, Észak-Amerika és Kelet-Európa számos helyéről. Az okklúziós címkékkel ellátott kereteket minden gyalogos számára használják, így ez az adatkészlet alkalmas a gyalogosok észlelésére. A viselkedésjegyzetek a gyalogosok viselkedését adják meg amelyek kölcsönhatásba lépnek a járművezetővel vagy megkövetelik annak figyelmét. Minden videóhoz különféle címkék (időjárás, helyek stb.) és időbélyegzővel ellátott viselkedési címkék vannak (pl. megállás, sétálás, nézés stb.). Ezenkívül a demográfiai tulajdonságok listája minden gyalogos számára (pl. életkor, nem, mozgásirány stb.), valamint az egyes képkockákban látható látható közlekedési helyszín elemek (pl. stoptábla, közlekedési jel stb.) felsorolása. " | Link |
CV | Kép | LISA közlekedési tábla, készítette: Univ. kaliforniai, San Diego, Egyesült Államok | Autóipari | Határoló doboz | Az Egyesült Államok közlekedési tábláit tartalmazó videókat és kommentált kereteket tartalmazó adatkészlet. Két szakaszban jelenik meg, az egyik csak képekkel, a másik pedig képekkel és videókkal. | Link |
CV | Kép | Mapillary Vistas, készítette: Mapillary AB, Global | Autóipari | Szemantikus címke | Utcaszintű fotókészlet az utcai jelenetek világszerte történő értelmezéséhez pixelpontos és példányspecifikus emberi annotációkkal. | Link |
CV | Videó, kép | Semantic KITTI, készítette a bonni egyetem, Karlsruhe, Németország | Autóipari | Határoló doboz, szemantikus címke, sáv jelölés | Adatkészlet, amely szemantikus feljegyzéseket tartalmaz az összes Odometry Benchmark szekvenciához. Az adatkészlet különféle mozgó és nem mozgó forgalom típusait jegyzi: beleértve az autókat, kerékpárokat, kerékpárokat, gyalogosokat és kerékpárosokat, lehetővé téve a helyszínen lévő tárgyak tanulmányozását. | Link |
CV | videó | Stanford Track, készítette: Stanford Univ., Egyesült Államok | Autóipari | Tárgyfelismerés / osztályozás LiDAR, GPS, kódok | Olyan adatkészlet, amely 14,000 64 felcímkézett objektum-sávot tartalmaz, amint azt a Velodyne HDL-2E S3 LIDAR természetes utcai jeleneteknél megfigyelte, és amelyek gépi tanulási modellek képzésére használhatók a XNUMXD-s objektumfelismeréshez. | Link |
CV | Videó, kép | A Boxy adatkészlet, készítette: Bosch, Egyesült Államok | Autóipari | Határoló doboz / jármű észlelése | 2 millió feljegyzett járművet tartalmazó járműészlelési adatsor az autópályákon önvezető autók tárgyfelismerési stratégiáinak képzésére és elemzésére. | Link |
CV | videó | TME autópálya, a Cseh Műszaki Egyetem, Észak-Olaszország | Autóipari | Határoló doboz | 28 klipből álló, összesen 27 percig tartó adatkészlet több mint 30,000 XNUMX jármű annotációs keretbe bontott. A jelölés félig automatikusan készült a lézerszkenner adatainak felhasználásával. Ez az adatgyűjtés változó forgalmi forgatókönyveket, sávok számát, az út görbületét és megvilágítását foglalja magában, amely lefedi a teljes beszerzés feltételeinek nagy részét. | Link |
CV | videó | Felügyelet nélküli lámák, írta: Bosch, Egyesült Államok | Autóipari | Sávjelölés, LiDAR | A Felügyelet nélküli Llamas adatkészletet nagyfelbontású automatikus vezetési térképek, köztük Lidar-alapú sávjelzők létrehozásával jegyzetelték. Az autonóm jármű beállítható ezekhez a térképekhez, és a sávjelzések kivetülnek a kamera keretébe. A 3D vetítést optimalizálják a már megfigyelt és előre jelzett képjelzők közötti eltérés minimalizálásával. | Link |
NLP | Audio | Facebook AI többnyelvű LibriSpeech (MLS) | általános | Hangjegyzetek / beszédfelismerés | A Facebook AI Multilingual LibriSpeech (MLS) egy nagyméretű, nyílt forráskódú adatkészlet, amelynek célja az automatikus beszédfelismerés (ASR) kutatásának elősegítése. Az MLS több mint 50,000 8 órányi hanganyagot nyújt XNUMX nyelven: angol, német, holland, francia, spanyol, olasz, portugál és lengyel nyelven. | Link |