Nyissa meg az adatkészleteket

Fedezzen fel nyílt forráskódú adatkészleteket, amelyek segítségével ML modelleket oktathat

Nyissa meg az adatkészleteket

Nyílt forráskódú adatkészletek az AI/ML modellek használatának megkezdéséhez

Az AI és ML modelljeinek kimenete csak olyan jó, mint az adatok, amelyeket a képzéséhez használ - tehát fontos az adatok összesítésénél alkalmazott pontosság, valamint az adatok címkézése és azonosítása!

Tehát, ha új AI / ML kezdeményezést szeretne indítani, és most hamar rájön, hogy a jó minőségű képzési adatok megtalálása a projekt egyik legnagyobb kihívást jelentő aspektusa lesz, mivel a kiváló minőségű adathalmazok tartják az AI-t / ML motor jár. Összegyűjtöttük a nyitott adatkészletek listáját, amelyek szabadon használhatják és képezhetik a jövő AI / ML modelljeit.

specializálódásAdattípusAdatkészlet neveIpar / TanszékMegjegyzés / felhasználási esetLeírásLink
NLPszövegAmazon véleményekE-kereskedelemÉrzelmi elemzésAz elmúlt 35 év 18 millió véleménye és értékelése egyszerű szövegben, a felhasználó és a termék részleteivel.Link
NLPszövegA Wikipedia Links adataiáltalánosTöbb mint 4 Mn. cikkek, amelyek 1.9 Mrd. szó, amely szavakból és kifejezésekből, valamint bekezdésekből áll.Link
NLPszövegStandford Sentiment TreebankSzórakozásÉrzelmi elemzésAz Rozsdás paradicsom több mint 10,000 XNUMX darab véleményének kommentálási adatállománya HTML fájl formátumbanLink
NLPszövegTwitter amerikai légitársaság hangulatLégitársaságÉrzelmi elemzés2015-ben a US Airlines tweetjei pozitív, negatív és semleges hangokra osztódtakLink
CVKép Címkézett arcok a vadonbanáltalánosArcfelismerésTöbb mint 13,000 XNUMX kivágott arcot tartalmazó, két különböző képpel rendelkező adatkészlet az arcfelismerő képzéshez.Link
CVVideó, képUMDFaces adatkészletáltalánosArcfelismerésAnnotált adatkészlet, amely több mint 367,000 8,000 arcot tartalmaz, több mint XNUMX alanyból, állóképeket és videofelvételeket is tartalmaz.Link
CVKép Imagenetáltalános14 millió feletti adatkészlet képek különböző fájlformátumokban, a WordNet hierarchiája szerint rendezve.Link
CVKép A Google nyílt képeiáltalános9 Mn. URL-ek a nyilvános képek kategorizálására több mint 6,000 kategóriából.Link
NLPszövegMIMIC Critical Care adatbázisEgészségügySzámítási élettani adatkészletek 40,000 XNUMX kritikus gondozású beteg azonosított adataival. Az adatkészlet olyan információkat tartalmaz, mint a demográfia, az életjelek, a gyógyszerek stb.Link
CVKépAz Egyesült Államok Nemzeti Utazási és Idegenforgalmi HivatalaIdegenforgalomSzéleskörű fényképeket nyújt az idegenforgalmi ágazattól, megbízható adatbázisokkal, amelyek olyan témákat tartalmaznak, mint a bejövő és kimenő utazások, valamint a nemzetközi turisztikai információk.Link
NLPszövegKözlekedési MinisztériumIdegenforgalomTurisztikai adatkészletek, amelyek tartalmazzák a nemzeti parkokat, a járművezetői nyilvántartásokat, a hidakat és a vasúti információkat stb.Link
NLPAudioFlickr Audio Felirat Corpusáltalános40 fénykép több mint 8,000 ezer szóbeli felirata felügyelet nélküli beszédmintákhozLink
NLPAudioBeszédparancsok adatkészleteáltalánosBeszédfelismerés, hangjegyzetek1 másodperc hosszú szólások ezer embertől az alapvető hangfelület kiépítéséhez.Link
NLPAudioKörnyezetvédelmi adatkészletekáltalánosKörnyezetvédelmi adatkészletek, amelyek az eseménytáblák és az akusztikus jelenetek táblázatait tartalmazzák.Link
NLPszövegCOVID-19 nyílt kutatási adatkészlet EgészségügyOrvosi AI45,000 19 tudományos cikkből álló kutatási adatkészlet a COVID-XNUMX-ről és a koronavírus-víruscsaládról.Link
CVKépWaymo Nyissa meg az adatkészletet AutóipariA Waymo által kiadott legváltozatosabb autonóm vezetési adatkészletekLink
CVKépLabelme Public Korm.A jegyzetekkel ellátott képek nagy sora elérhető a Labelme Matlab-on keresztülLink
CVKépCOIL100általánosTöbb mint 100 különböző tárgy, több szögből (azaz 360 fokból) fotográfálvaLink
CVKépStanford Dogs adatkészletáltalánosTöbb mint 20,500 120+ kép XNUMX különböző kutyafajta képsorba kategorizálvaLink
CVKépBeltéri jelenetfelismerésáltalánosJelenetfelismerésSpeciális adatkészlet, amely 15620 képből áll 67 beltéri kategóriában, jelenetfelismerési modellek készítéséhezLink
CVKépVisualQAáltalánosAdatkészlet, amely nyitott kérdéseket tartalmaz 265,016 XNUMX fotóval kapcsolatban, amelyek válaszához a látás megértése és a nyelv megértése szükséges.Link
NLPszövegMultidomain Sentiment Analysis adatkészletE-kereskedelemÉrzelmi elemzésAz Amazon termékismertetőit tartalmazó adatkészletLink
NLPszövegIMDB véleményekSzórakozásÉrzelmi elemzés25000 filmszemlét tartalmazó adatkészlet az érzelmek elemzéséhezLink
NLPszövegÉrzés140általánosÉrzelmi elemzésAdatkészlet, amely 160,000 XNUMX tweetet tartalmaz, előre eltávolított hangulatjelekkel a nagyobb pontosság érdekébenLink
NLPszövegBlogger -korpuszáltalánosKulcsmondat -analízisAdatkészlet, amely 681,288 200 blogbejegyzést tartalmaz a blogger.com webhelyről, amely legalább XNUMX előfordulást tartalmaz, széles körben használt angol szavakból.Link
NLPszövegVeszélyáltalánosChatbot képzésTöbb mint 200,000 XNUMX kérdést tartalmazó adatkészlet, amely felhasználható a gépi tanulási modellek intelligens automatikus válaszadásáraLink
NLPszövegSMS Spam Collection angol nyelvenTelecomSpam felismerés5,574 angol SMS-ből álló spam üzenet adatkészletLink
NLPszövegYelp-véleményekáltalánosÉrzelmi elemzésA Yelp által közzétett több mint 5 millió áttekintésű adatkészletLink
NLPszövegAz UCI SpambaseVállalkozásSpam felismerésNagy mennyiségű spam e-mail, amely hasznos a spam szűrésére.Link
CVVideó, képBerkeley DeepDrive BDD100kAutóipariAutonóm járművekAz önvezető AI-k egyik legnagyobb adatállománya, amely 1,100 óra vezetési élményt tartalmaz, több mint 100,000 XNUMX videóban, a nap különböző szakaszaiból, New York és San Francisco környékéről.Link
CVvideóVessző.aiAutóipariAutonóm járművek 7 órás autópálya-vezetési adatkészlet, amely információkat tartalmaz az autó sebességéről, gyorsulásáról, kormányzási szögéről és GPS-koordinátáirólLink
CVVideó, képVároskép-adatkészletAutóipariSzemantikus címke az autonóm jármű számára5,000 pixel szintű kommentár, valamint egy nagyobb, 20,000 50 gyengén jegyzett képkocka készlet sztereó videoszekvenciákban, XNUMX különböző városból rögzítveLink
CVKépKUL Belgium közlekedési tábla adatkészletAutóipariAutonóm járművekTöbb mint 10000+ közlekedési tábla kommentárja a Flandria régióból, fizikailag elkülönülő közlekedési táblák alapján Belgium-szerte.Link
CVKépLISA: Intelligens és biztonságos személygépkocsik laboratóriuma, UC San Diego AdatkészletekAutóipariAutonóm járművekGazdag adatkészlet, amely közlekedési táblákat, járművek észlelését, közlekedési lámpákat és pályamintákat tartalmaz.Link
CVKépCIFAR-10általánosObjektum felismerés50,000 10,000 képből és 60,000 32 tesztképből álló adatkészlet (azaz 32 10 XNUMX × XNUMX színes kép XNUMX osztályban) objektumfelismerés céljából.Link
CVKépDivat MNISTDivatKépadatkészlet, amely 60,000 10,000 példából áll, és 28 28 példányból álló tesztkészlet 10 × XNUMX szürkeárnyalatos képben, XNUMX osztály címkéjéhez társítva.Link
CVKépIMDB-Wiki adatkészletSzórakozásArcfelismerésAz arcképek nagy gyűjteménye olyan címkékkel, mint a nem és az életkor. Az összes 523,051 460,723 arckép közül 20,284 62,328 képet kapunk XNUMX XNUMX hírességtől az IMDB-től és XNUMX XNUMX a Wikipédiától.Link
CVvideóKinetika-700általánosMinden kiváló minőségű adatkészlet 650,000 700 videoklipből áll, és 600 emberi cselekvési osztályt, legalább 10 videoklipet tartalmaz. Itt minden klip körülbelül XNUMX másodpercig tart.Link
CVKépMS CocoáltalánosTárgyfelismerés, szegmentálásAz adatkészlet 328 ezer képet tartalmaz, és összesen 2.5 millió Mn példányt és 91 objektum képet tartalmaz a nagyszabású objektum-észleléssel, szegmentálással és adatfelirattal kapcsolatos ML modellek kiképzésére.Link
CVKépMPII Emberi póz adatkészletáltalánosKörülbelül 25K fénykép, amely több mint 40K egyéniséget tartalmaz annotált testízületekkel, szerepel az adatkészletben, amelyet az emberi pózbecslés artikulálására használnak. Összességében az adatkészlet 410 emberi tevékenységet fed le, és mindegyik kép egy tevékenységcímkével van ellátva.Link
CVKépNyissa meg a KépeketáltalánosAz objektum helyének kommentárjaiKépadatkészlet körülbelül 9 millió képpel, képszintű címkékkel, objektumhatároló dobozokkal, objektumszegmentálással stb. Kommentálva. határoló dobozok 16 objektumosztályhoz 600 millió képen.Link
CVVideó, képArgo, Argo, USAAutóipariHatároló doboz, optikai áramlás, viselkedési címke, szemantikus címke, sávjelölésÖnvezető adatkészlet, amely geometriai és szemantikai metaadatokkal, azaz sáv középvonalakkal, sáv irányával és vezethető területtel rendelkező HD térképekből áll. Az adatsort ML modellek képzésére, pontosabb észlelési algoritmusok készítésére használják, amelyek elősegítik az önvezető járművek biztonságos közlekedését.Link
CVvideóBosch kis közlekedési lámpák, a Bosch North America Research munkatársaAutóipariHatároló doboz13427 kameraképet tartalmazó, 1280 * 720 felbontású adatkészlet a látásalapú közlekedési lámpa érzékelő rendszer kiépítéséhez. Az adatkészlet több mint 24000 feljegyzett lámpával rendelkezik.Link
CVvideóBrain4Cars, Cornell Univ., Egyesült ÁllamokAutóipariViselkedési címkeAdatkészlet, amely a kabin érzékelőinek tömbjéből áll (kamerák, tapintható érzékelők, intelligens eszközök stb.), Hogy hasznos statisztikákat nyerhessenek ki a vezető éberségéről. Algoritmusaink érzékelhetik az álmos vagy zavaró járművezetőket, és növelhetik a szükséges riasztásokat a védelem javítása érdekében.Link
CVKépCULane, a kínai univ. Hong Kong, Peking, KínaAutóipariSávjelölésA forgalmi sávok észlelésére szolgáló Computer Vision adatkészlet, amely 55 órányi videót tartalmaz, amelyekből 133,235 88880 (9675 képzési készlet, 34680 érvényesítési készlet és XNUMX teszt készlet) képkockát vontak ki. Ezt hat különböző járműre szerelt kamerák gyűjtötték össze, amelyeket Pekingben különböző sofőrök irányítottak.Link
CVvideóDAVIS, az Univ. Zürich, ETH ¨ Zürich, Németország, SvájcAutóipariVégpontok közötti járművezető-képzési adatkészlet, amely DAVIS event + frame kamerát használ. Az autóadatokat, például a kormányzást, a fojtószelepet, a GPS-t stb. Használják az autóipari alkalmazások keret- és eseményadatainak összeolvadásának értékelésére.Link
CVvideóDBNet, Sanghaj Jiao Tong Univ., Xiamen Univ., KínaAutóipariPontfelhő, LiDARValós 1000 km-es vezetési adatok, amelyek összehangolt videót, pontfelhőt, GPS-t és a vezető viselkedését tartalmazzák a vezetési viselkedés alapos kutatásához.Link
CVvideóDr (szem) ve, az Univ. Modena és Reggio Emilia, Modena, OlaszországAutóipariViselkedési címkeAdatkészlet, amely egyenként 74 perces 5 videoszekvenciát tartalmaz, és amelyeket több mint 500,000 XNUMX képkockán jegyzeteltek. Az adatkészlet a földrajzi hivatkozásokból álló helyekből, a menetsebességből, a tanfolyamból áll, valamint a járművezetőknek a tekintetek rögzítését és azok időbeli integrációját felajánlja, feladatspecifikus térképeket biztosítva.Link
CVvideóETH Gyalogos (2009), készítette: ETH Zürich, Zürich, SvájcáltalánosHatároló doboz74, egyenként 5 perces 500,000 videósorozatból álló adatkészlet, több mint XNUMX XNUMX képkocka annotációval. Az adatkészlet földrajzi hivatkozásokat tartalmaz, a menetsebességet, az irányt, és felcímkézi a tekintetek rögzítését a járművezetők számára és azok időbeli integrációját, beleértve a feladatspecifikus térképeket is.Link
CVvideóFord (2009), készítette: Univ. Michigan, Michigan, USAAutóipariBounding Box,, LiDARAdatkészlet, amelyet egy Velodyne 3D-lidar szkennerrel, két előretekintő, előre tekintő Rieg lidarral, egy műszaki és fogyasztói inerciális mérőegységgel (IMU), valamint egy Point Grey Ladybug3 körsugárzó kamerarendszerrel felfegyverzett automatizált szárazföldi jármű állított össze.Link
CVvideóHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, NémetországáltalánosAdatkészlet több millió képkockával rögzített videójelenetekből, amelyek sokféle időjárási körülményt, több mozgási és mélységi réteget tartalmaznak; helyzetek a városban és a vidéken stb.Link
CVvideóJAAD, a York Egyetem, Ukrajna, KanadaAutóipariHatároló doboz, Viselkedési címke"A JAAD egy olyan adatkészlet, amely az önálló vezetés összefüggésében tanulmányozza a közös figyelmet. A hangsúly a gyalogosok és a sofőrök viselkedésén van az átkelés helyén és az őket befolyásoló tényezőkön. Ennek érdekében a JAAD adatkészlet gazdag jegyzetekkel ellátott 346 rövid videó gyűjteményt nyújt klipek (5-10 másodperc hosszúságú), több mint 240 órás vezetési felvételből, Észak-Amerika és Kelet-Európa számos helyéről. Az okklúziós címkékkel ellátott kereteket minden gyalogos számára használják, így ez az adatkészlet alkalmas a gyalogosok észlelésére. A viselkedésjegyzetek a gyalogosok viselkedését adják meg amelyek kölcsönhatásba lépnek a járművezetővel vagy megkövetelik annak figyelmét. Minden videóhoz különféle címkék (időjárás, helyek stb.) és időbélyegzővel ellátott viselkedési címkék vannak (pl. megállás, sétálás, nézés stb.). Ezenkívül a demográfiai tulajdonságok listája minden gyalogos számára (pl. életkor, nem, mozgásirány stb.), valamint az egyes képkockákban látható látható közlekedési helyszín elemek (pl. stoptábla, közlekedési jel stb.) felsorolása. "Link
CVKépLISA közlekedési tábla, készítette: Univ. kaliforniai, San Diego, Egyesült ÁllamokAutóipariHatároló dobozAz Egyesült Államok közlekedési tábláit tartalmazó videókat és kommentált kereteket tartalmazó adatkészlet. Két szakaszban jelenik meg, az egyik csak képekkel, a másik pedig képekkel és videókkal.Link
CVKépMapillary Vistas, készítette: Mapillary AB, GlobalAutóipariSzemantikus címkeUtcaszintű fotókészlet az utcai jelenetek világszerte történő értelmezéséhez pixelpontos és példányspecifikus emberi annotációkkal.Link
CVVideó, képSemantic KITTI, készítette a bonni egyetem, Karlsruhe, NémetországAutóipariHatároló doboz, szemantikus címke, sáv jelölésAdatkészlet, amely szemantikus feljegyzéseket tartalmaz az összes Odometry Benchmark szekvenciához. Az adatkészlet különféle mozgó és nem mozgó forgalom típusait jegyzi: beleértve az autókat, kerékpárokat, kerékpárokat, gyalogosokat és kerékpárosokat, lehetővé téve a helyszínen lévő tárgyak tanulmányozását.Link
CVvideóStanford Track, készítette: Stanford Univ., Egyesült ÁllamokAutóipariTárgyfelismerés / osztályozás LiDAR, GPS, kódokOlyan adatkészlet, amely 14,000 64 felcímkézett objektum-sávot tartalmaz, amint azt a Velodyne HDL-2E S3 LIDAR természetes utcai jeleneteknél megfigyelte, és amelyek gépi tanulási modellek képzésére használhatók a XNUMXD-s objektumfelismeréshez.Link
CVVideó, képA Boxy adatkészlet, készítette: Bosch, Egyesült ÁllamokAutóipariHatároló doboz / jármű észlelése2 millió feljegyzett járművet tartalmazó járműészlelési adatsor az autópályákon önvezető autók tárgyfelismerési stratégiáinak képzésére és elemzésére.Link
CVvideóTME autópálya, a Cseh Műszaki Egyetem, Észak-OlaszországAutóipariHatároló doboz28 klipből álló, összesen 27 percig tartó adatkészlet több mint 30,000 XNUMX jármű annotációs keretbe bontott. A jelölés félig automatikusan készült a lézerszkenner adatainak felhasználásával. Ez az adatgyűjtés változó forgalmi forgatókönyveket, sávok számát, az út görbületét és megvilágítását foglalja magában, amely lefedi a teljes beszerzés feltételeinek nagy részét.Link
CVvideóFelügyelet nélküli lámák, írta: Bosch, Egyesült ÁllamokAutóipariSávjelölés, LiDARA Felügyelet nélküli Llamas adatkészletet nagyfelbontású automatikus vezetési térképek, köztük Lidar-alapú sávjelzők létrehozásával jegyzetelték. Az autonóm jármű beállítható ezekhez a térképekhez, és a sávjelzések kivetülnek a kamera keretébe. A 3D vetítést optimalizálják a már megfigyelt és előre jelzett képjelzők közötti eltérés minimalizálásával.Link
NLPAudioFacebook AI többnyelvű LibriSpeech (MLS)általánosHangjegyzetek / beszédfelismerésA Facebook AI Multilingual LibriSpeech (MLS) egy nagyméretű, nyílt forráskódú adatkészlet, amelynek célja az automatikus beszédfelismerés (ASR) kutatásának elősegítése. Az MLS több mint 50,000 8 órányi hanganyagot nyújt XNUMX nyelven: angol, német, holland, francia, spanyol, olasz, portugál és lengyel nyelven. Link