Nyissa meg az adatkészleteket

Fedezzen fel nyílt forráskódú adatkészleteket, amelyek segítségével ML modelleket oktathat

Nyílt forráskódú adatkészletek az AI/ML modellek használatának megkezdéséhez

Az AI és ML modelljeinek kimenete csak olyan jó, mint az adatok, amelyeket a képzéséhez használ - tehát fontos az adatok összesítésénél alkalmazott pontosság, valamint az adatok címkézése és azonosítása!

Tehát, ha új AI / ML kezdeményezést szeretne indítani, és most hamar rájön, hogy a jó minőségű képzési adatok megtalálása a projekt egyik legnagyobb kihívást jelentő aspektusa lesz, mivel a kiváló minőségű adathalmazok tartják az AI-t / ML motor jár. Összegyűjtöttük a nyitott adatkészletek listáját, amelyek szabadon használhatják és képezhetik a jövő AI / ML modelljeit.

specializálódás	Adattípus	Adatkészlet neve	Ipar / Tanszék	Megjegyzés / felhasználási eset	Leírás	Link
NLP	szöveg	Amazon vélemények	E-kereskedelem	Érzelmi elemzés	Az elmúlt 35 év 18 millió véleménye és értékelése egyszerű szövegben, a felhasználó és a termék részleteivel.	Link
NLP	szöveg	A Wikipedia Links adatai	általános		Több mint 4 Mn. cikkek, amelyek 1.9 Mrd. szó, amely szavakból és kifejezésekből, valamint bekezdésekből áll.	Link
NLP	szöveg	Standford Sentiment Treebank	Szórakozás	Érzelmi elemzés	Az Rozsdás paradicsom több mint 10,000 XNUMX darab véleményének kommentálási adatállománya HTML fájl formátumban	Link
NLP	szöveg	Twitter amerikai légitársaság hangulat	Légitársaság	Érzelmi elemzés	2015-ben a US Airlines tweetjei pozitív, negatív és semleges hangokra osztódtak	Link
CV	Kép	Címkézett arcok a vadonban	általános	Arcfelismerés	Több mint 13,000 XNUMX kivágott arcot tartalmazó, két különböző képpel rendelkező adatkészlet az arcfelismerő képzéshez.	Link
CV	Videó, kép	UMDFaces adatkészlet	általános	Arcfelismerés	Annotált adatkészlet, amely több mint 367,000 8,000 arcot tartalmaz, több mint XNUMX alanyból, állóképeket és videofelvételeket is tartalmaz.	Link
CV	Kép	Imagenet	általános		14 millió feletti adatkészlet képek különböző fájlformátumokban, a WordNet hierarchiája szerint rendezve.	Link
CV	Kép	A Google nyílt képei	általános		9 Mn. URL-ek a nyilvános képek kategorizálására több mint 6,000 kategóriából.	Link
NLP	szöveg	MIMIC Critical Care adatbázis	Egészségügy		Számítási élettani adatkészletek 40,000 XNUMX kritikus gondozású beteg azonosított adataival. Az adatkészlet olyan információkat tartalmaz, mint a demográfia, az életjelek, a gyógyszerek stb.	Link
CV	Kép	Az Egyesült Államok Nemzeti Utazási és Idegenforgalmi Hivatala	Idegenforgalom		Széleskörű fényképeket nyújt az idegenforgalmi ágazattól, megbízható adatbázisokkal, amelyek olyan témákat tartalmaznak, mint a bejövő és kimenő utazások, valamint a nemzetközi turisztikai információk.	Link
NLP	szöveg	Közlekedési Minisztérium	Idegenforgalom		Turisztikai adatkészletek, amelyek tartalmazzák a nemzeti parkokat, a járművezetői nyilvántartásokat, a hidakat és a vasúti információkat stb.	Link
NLP	Audio	Flickr Audio Felirat Corpus	általános		40 fénykép több mint 8,000 ezer szóbeli felirata felügyelet nélküli beszédmintákhoz	Link
NLP	Audio	Beszédparancsok adatkészlete	általános	Beszédfelismerés, hangjegyzetek	1 másodperc hosszú szólások ezer embertől az alapvető hangfelület kiépítéséhez.	Link
NLP	Audio	Környezetvédelmi adatkészletek	általános		Környezetvédelmi adatkészletek, amelyek az eseménytáblák és az akusztikus jelenetek táblázatait tartalmazzák.	Link
NLP	szöveg	COVID-19 nyílt kutatási adatkészlet	Egészségügy	Orvosi AI	45,000 19 tudományos cikkből álló kutatási adatkészlet a COVID-XNUMX-ről és a koronavírus-víruscsaládról.	Link
CV	Kép	Waymo Nyissa meg az adatkészletet	Autóipari		A Waymo által kiadott legváltozatosabb autonóm vezetési adatkészletek	Link
CV	Kép	Vizuális genom	általános	Képfelirat	Vizuális tudásbázis, több mint 100 XNUMX kép részletes feliratozásával	Link
CV	Kép	Labelme	Public Korm.		A jegyzetekkel ellátott képek nagy sora elérhető a Labelme Matlab-on keresztül	Link
CV	Kép	COIL100	általános		Több mint 100 különböző tárgy, több szögből (azaz 360 fokból) fotográfálva	Link
CV	Kép	Stanford Dogs adatkészlet	általános		Több mint 20,500 120+ kép XNUMX különböző kutyafajta képsorba kategorizálva	Link
CV	Kép	Beltéri jelenetfelismerés	általános	Jelenetfelismerés	Speciális adatkészlet, amely 15620 képből áll 67 beltéri kategóriában, jelenetfelismerési modellek készítéséhez	Link
CV	Kép	VisualQA	általános		Adatkészlet, amely nyitott kérdéseket tartalmaz 265,016 XNUMX fotóval kapcsolatban, amelyek válaszához a látás megértése és a nyelv megértése szükséges.	Link
NLP	szöveg	Multidomain Sentiment Analysis adatkészlet	E-kereskedelem	Érzelmi elemzés	Az Amazon termékismertetőit tartalmazó adatkészlet	Link
NLP	szöveg	IMDB vélemények	Szórakozás	Érzelmi elemzés	25000 filmszemlét tartalmazó adatkészlet az érzelmek elemzéséhez	Link
NLP	szöveg	Érzés140	általános	Érzelmi elemzés	Adatkészlet, amely 160,000 XNUMX tweetet tartalmaz, előre eltávolított hangulatjelekkel a nagyobb pontosság érdekében	Link
NLP	szöveg	Blogger -korpusz	általános	Kulcsmondat -analízis	Adatkészlet, amely 681,288 200 blogbejegyzést tartalmaz a blogger.com webhelyről, amely legalább XNUMX előfordulást tartalmaz, széles körben használt angol szavakból.	Link
NLP	szöveg	Veszély	általános	Chatbot képzés	Több mint 200,000 XNUMX kérdést tartalmazó adatkészlet, amely felhasználható a gépi tanulási modellek intelligens automatikus válaszadására	Link
NLP	szöveg	SMS Spam Collection angol nyelven	Telecom	Spam felismerés	5,574 angol SMS-ből álló spam üzenet adatkészlet	Link
NLP	szöveg	Yelp-vélemények	általános	Érzelmi elemzés	A Yelp által közzétett több mint 5 millió áttekintésű adatkészlet	Link
NLP	szöveg	Az UCI Spambase	Vállalkozás	Spam felismerés	Nagy mennyiségű spam e-mail, amely hasznos a spam szűrésére.	Link
CV	Videó, kép	Berkeley DeepDrive BDD100k	Autóipari	Autonóm járművek	Az önvezető AI-k egyik legnagyobb adatállománya, amely 1,100 óra vezetési élményt tartalmaz, több mint 100,000 XNUMX videóban, a nap különböző szakaszaiból, New York és San Francisco környékéről.	Link
CV	videó	Vessző.ai	Autóipari	Autonóm járművek	7 órás autópálya-vezetési adatkészlet, amely információkat tartalmaz az autó sebességéről, gyorsulásáról, kormányzási szögéről és GPS-koordinátáiról	Link
CV	Videó, kép	Városkép-adatkészlet	Autóipari	Szemantikus címke az autonóm jármű számára	5,000 pixel szintű kommentár, valamint egy nagyobb, 20,000 50 gyengén jegyzett képkocka készlet sztereó videoszekvenciákban, XNUMX különböző városból rögzítve	Link
CV	Kép	KUL Belgium közlekedési tábla adatkészlet	Autóipari	Autonóm járművek	Több mint 10000+ közlekedési tábla kommentárja a Flandria régióból, fizikailag elkülönülő közlekedési táblák alapján Belgium-szerte.	Link
CV	Kép	LISA: Intelligens és biztonságos személygépkocsik laboratóriuma, UC San Diego Adatkészletek	Autóipari	Autonóm járművek	Gazdag adatkészlet, amely közlekedési táblákat, járművek észlelését, közlekedési lámpákat és pályamintákat tartalmaz.	Link
CV	Kép	CIFAR-10	általános	Objektum felismerés	50,000 10,000 képből és 60,000 32 tesztképből álló adatkészlet (azaz 32 10 XNUMX × XNUMX színes kép XNUMX osztályban) objektumfelismerés céljából.	Link
CV	Kép	Divat MNIST	Divat		Képadatkészlet, amely 60,000 10,000 példából áll, és 28 28 példányból álló tesztkészlet 10 × XNUMX szürkeárnyalatos képben, XNUMX osztály címkéjéhez társítva.	Link
CV	Kép	IMDB-Wiki adatkészlet	Szórakozás	Arcfelismerés	Az arcképek nagy gyűjteménye olyan címkékkel, mint a nem és az életkor. Az összes 523,051 460,723 arckép közül 20,284 62,328 képet kapunk XNUMX XNUMX hírességtől az IMDB-től és XNUMX XNUMX a Wikipédiától.	Link
CV	videó	Kinetika-700	általános		Minden kiváló minőségű adatkészlet 650,000 700 videoklipből áll, és 600 emberi cselekvési osztályt, legalább 10 videoklipet tartalmaz. Itt minden klip körülbelül XNUMX másodpercig tart.	Link
CV	Kép	MS Coco	általános	Tárgyfelismerés, szegmentálás	Az adatkészlet 328 ezer képet tartalmaz, és összesen 2.5 millió Mn példányt és 91 objektum képet tartalmaz a nagyszabású objektum-észleléssel, szegmentálással és adatfelirattal kapcsolatos ML modellek kiképzésére.	Link
CV	Kép	MPII Emberi póz adatkészlet	általános		Körülbelül 25K fénykép, amely több mint 40K egyéniséget tartalmaz annotált testízületekkel, szerepel az adatkészletben, amelyet az emberi pózbecslés artikulálására használnak. Összességében az adatkészlet 410 emberi tevékenységet fed le, és mindegyik kép egy tevékenységcímkével van ellátva.	Link
CV	Kép	Nyissa meg a Képeket	általános	Az objektum helyének kommentárjai	Képadatkészlet körülbelül 9 millió képpel, képszintű címkékkel, objektumhatároló dobozokkal, objektumszegmentálással stb. Kommentálva. határoló dobozok 16 objektumosztályhoz 600 millió képen.	Link
CV	videó	Apollo Open Platform, készítette: Baidu Inc., Kína	Autóipari	Határoló doboz, LiDAR	Gazdag autonóm vezetési adatkészlet, amely biztosítja a fejlesztők számára az autonóm vezetéshez szükséges adatokat az innovatív iteráció hatékonyságának növelése érdekében.	Link
CV	Videó, kép	Argo, Argo, USA	Autóipari	Határoló doboz, optikai áramlás, viselkedési címke, szemantikus címke, sávjelölés	Önvezető adatkészlet, amely geometriai és szemantikai metaadatokkal, azaz sáv középvonalakkal, sáv irányával és vezethető területtel rendelkező HD térképekből áll. Az adatsort ML modellek képzésére, pontosabb észlelési algoritmusok készítésére használják, amelyek elősegítik az önvezető járművek biztonságos közlekedését.	Link
CV	videó	Bosch kis közlekedési lámpák, a Bosch North America Research munkatársa	Autóipari	Határoló doboz	13427 kameraképet tartalmazó, 1280 * 720 felbontású adatkészlet a látásalapú közlekedési lámpa érzékelő rendszer kiépítéséhez. Az adatkészlet több mint 24000 feljegyzett lámpával rendelkezik.	Link
CV	videó	Brain4Cars, Cornell Univ., Egyesült Államok	Autóipari	Viselkedési címke	Adatkészlet, amely a kabin érzékelőinek tömbjéből áll (kamerák, tapintható érzékelők, intelligens eszközök stb.), Hogy hasznos statisztikákat nyerhessenek ki a vezető éberségéről. Algoritmusaink érzékelhetik az álmos vagy zavaró járművezetőket, és növelhetik a szükséges riasztásokat a védelem javítása érdekében.	Link
CV	Kép	CULane, a kínai univ. Hong Kong, Peking, Kína	Autóipari	Sávjelölés	A forgalmi sávok észlelésére szolgáló Computer Vision adatkészlet, amely 55 órányi videót tartalmaz, amelyekből 133,235 88880 (9675 képzési készlet, 34680 érvényesítési készlet és XNUMX teszt készlet) képkockát vontak ki. Ezt hat különböző járműre szerelt kamerák gyűjtötték össze, amelyeket Pekingben különböző sofőrök irányítottak.	Link
CV	videó	DAVIS, az Univ. Zürich, ETH ¨ Zürich, Németország, Svájc	Autóipari		Végpontok közötti járművezető-képzési adatkészlet, amely DAVIS event + frame kamerát használ. Az autóadatokat, például a kormányzást, a fojtószelepet, a GPS-t stb. Használják az autóipari alkalmazások keret- és eseményadatainak összeolvadásának értékelésére.	Link
CV	videó	DBNet, Sanghaj Jiao Tong Univ., Xiamen Univ., Kína	Autóipari	Pontfelhő, LiDAR	Valós 1000 km-es vezetési adatok, amelyek összehangolt videót, pontfelhőt, GPS-t és a vezető viselkedését tartalmazzák a vezetési viselkedés alapos kutatásához.	Link
CV	videó	Dr (szem) ve, az Univ. Modena és Reggio Emilia, Modena, Olaszország	Autóipari	Viselkedési címke	Adatkészlet, amely egyenként 74 perces 5 videoszekvenciát tartalmaz, és amelyeket több mint 500,000 XNUMX képkockán jegyzeteltek. Az adatkészlet a földrajzi hivatkozásokból álló helyekből, a menetsebességből, a tanfolyamból áll, valamint a járművezetőknek a tekintetek rögzítését és azok időbeli integrációját felajánlja, feladatspecifikus térképeket biztosítva.	Link
CV	videó	ETH Gyalogos (2009), készítette: ETH Zürich, Zürich, Svájc	általános	Határoló doboz	74, egyenként 5 perces 500,000 videósorozatból álló adatkészlet, több mint XNUMX XNUMX képkocka annotációval. Az adatkészlet földrajzi hivatkozásokat tartalmaz, a menetsebességet, az irányt, és felcímkézi a tekintetek rögzítését a járművezetők számára és azok időbeli integrációját, beleértve a feladatspecifikus térképeket is.	Link
CV	videó	Ford (2009), készítette: Univ. Michigan, Michigan, USA	Autóipari	Bounding Box,, LiDAR	Adatkészlet, amelyet egy Velodyne 3D-lidar szkennerrel, két előretekintő, előre tekintő Rieg lidarral, egy műszaki és fogyasztói inerciális mérőegységgel (IMU), valamint egy Point Grey Ladybug3 körsugárzó kamerarendszerrel felfegyverzett automatizált szárazföldi jármű állított össze.	Link
CV	videó	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Németország	általános		Adatkészlet több millió képkockával rögzített videójelenetekből, amelyek sokféle időjárási körülményt, több mozgási és mélységi réteget tartalmaznak; helyzetek a városban és a vidéken stb.	Link
CV	videó	JAAD, a York Egyetem, Ukrajna, Kanada	Autóipari	Határoló doboz, Viselkedési címke	"A JAAD egy olyan adatkészlet, amely az önálló vezetés összefüggésében tanulmányozza a közös figyelmet. A hangsúly a gyalogosok és a sofőrök viselkedésén van az átkelés helyén és az őket befolyásoló tényezőkön. Ennek érdekében a JAAD adatkészlet gazdag jegyzetekkel ellátott 346 rövid videó gyűjteményt nyújt klipek (5-10 másodperc hosszúságú), több mint 240 órás vezetési felvételből, Észak-Amerika és Kelet-Európa számos helyéről. Az okklúziós címkékkel ellátott kereteket minden gyalogos számára használják, így ez az adatkészlet alkalmas a gyalogosok észlelésére. A viselkedésjegyzetek a gyalogosok viselkedését adják meg amelyek kölcsönhatásba lépnek a járművezetővel vagy megkövetelik annak figyelmét. Minden videóhoz különféle címkék (időjárás, helyek stb.) és időbélyegzővel ellátott viselkedési címkék vannak (pl. megállás, sétálás, nézés stb.). Ezenkívül a demográfiai tulajdonságok listája minden gyalogos számára (pl. életkor, nem, mozgásirány stb.), valamint az egyes képkockákban látható látható közlekedési helyszín elemek (pl. stoptábla, közlekedési jel stb.) felsorolása. "	Link
CV	videó	KAIST Urban, szerző: KAIST, Dél-Korea	általános	LIDAR	Az adatgyűjtés számos helymeghatározó érzékelőt tartalmaz a LiDAR adatokhoz és sztereó képeket, amelyek egy nagyon összetett városi területet céloznak meg (pl. Metropolisz, összetett épületek és lakóövezetek).	Link
CV	Kép	LISA közlekedési tábla, készítette: Univ. kaliforniai, San Diego, Egyesült Államok	Autóipari	Határoló doboz	Az Egyesült Államok közlekedési tábláit tartalmazó videókat és kommentált kereteket tartalmazó adatkészlet. Két szakaszban jelenik meg, az egyik csak képekkel, a másik pedig képekkel és videókkal.	Link
CV	Kép	Mapillary Vistas, készítette: Mapillary AB, Global	Autóipari	Szemantikus címke	Utcaszintű fotókészlet az utcai jelenetek világszerte történő értelmezéséhez pixelpontos és példányspecifikus emberi annotációkkal.	Link
CV	Videó, kép	Semantic KITTI, készítette a bonni egyetem, Karlsruhe, Németország	Autóipari	Határoló doboz, szemantikus címke, sáv jelölés	Adatkészlet, amely szemantikus feljegyzéseket tartalmaz az összes Odometry Benchmark szekvenciához. Az adatkészlet különféle mozgó és nem mozgó forgalom típusait jegyzi: beleértve az autókat, kerékpárokat, kerékpárokat, gyalogosokat és kerékpárosokat, lehetővé téve a helyszínen lévő tárgyak tanulmányozását.	Link
CV	videó	Stanford Track, készítette: Stanford Univ., Egyesült Államok	Autóipari	Tárgyfelismerés / osztályozás LiDAR, GPS, kódok	Olyan adatkészlet, amely 14,000 64 felcímkézett objektum-sávot tartalmaz, amint azt a Velodyne HDL-2E S3 LIDAR természetes utcai jeleneteknél megfigyelte, és amelyek gépi tanulási modellek képzésére használhatók a XNUMXD-s objektumfelismeréshez.	Link
CV	Videó, kép	A Boxy adatkészlet, készítette: Bosch, Egyesült Államok	Autóipari	Határoló doboz / jármű észlelése	2 millió feljegyzett járművet tartalmazó járműészlelési adatsor az autópályákon önvezető autók tárgyfelismerési stratégiáinak képzésére és elemzésére.	Link
CV	videó	TME autópálya, a Cseh Műszaki Egyetem, Észak-Olaszország	Autóipari	Határoló doboz	28 klipből álló, összesen 27 percig tartó adatkészlet több mint 30,000 XNUMX jármű annotációs keretbe bontott. A jelölés félig automatikusan készült a lézerszkenner adatainak felhasználásával. Ez az adatgyűjtés változó forgalmi forgatókönyveket, sávok számát, az út görbületét és megvilágítását foglalja magában, amely lefedi a teljes beszerzés feltételeinek nagy részét.	Link
CV	videó	Felügyelet nélküli lámák, írta: Bosch, Egyesült Államok	Autóipari	Sávjelölés, LiDAR	A Felügyelet nélküli Llamas adatkészletet nagyfelbontású automatikus vezetési térképek, köztük Lidar-alapú sávjelzők létrehozásával jegyzetelték. Az autonóm jármű beállítható ezekhez a térképekhez, és a sávjelzések kivetülnek a kamera keretébe. A 3D vetítést optimalizálják a már megfigyelt és előre jelzett képjelzők közötti eltérés minimalizálásával.	Link
NLP	Audio	Facebook AI többnyelvű LibriSpeech (MLS)	általános	Hangjegyzetek / beszédfelismerés	A Facebook AI Multilingual LibriSpeech (MLS) egy nagyméretű, nyílt forráskódú adatkészlet, amelynek célja az automatikus beszédfelismerés (ASR) kutatásának elősegítése. Az MLS több mint 50,000 8 órányi hanganyagot nyújt XNUMX nyelven: angol, német, holland, francia, spanyol, olasz, portugál és lengyel nyelven.	Link

Nyissa meg az adatkészleteket

Nyílt forráskódú adatkészletek az AI/ML modellek használatának megkezdéséhez

AI adatszolgáltatások

Szakterület

Ipar

Termékek

Cégünkről

Tudástár

Kapcsolatba lép velünk