- A globális egészségügyi rendszer napi szinten hatalmas mennyiségű orvosi adatot állít elő, amelyet gépi tanulási alkalmazásokhoz lehet hasznosítani. Az összes iparágban az adatok értékes vagyonnak számítanak, amely lehetővé teszi a vállalatok számára, hogy versenyelőnyt szerezzenek, és ez az egészségügyi szektor sem más.
Ez a cikk tömören foglalkozik az orvosi adatok kezelése során felmerülő akadályokkal, és összefoglalja a nyilvánosan hozzáférhető egészségügyi adatkészleteket.
Az egészségügyi adatkészletek jelentősége
Az egészségügyi adatkészletek olyan betegek információinak gyűjteményei, mint például az orvosi feljegyzések, diagnózisok, kezelések, genetikai adatok és életmódbeli részletek. Nagyon fontosak a mai világban, ahol az AI-t egyre többet használják. Íme, miért:
A betegek egészségének megértése:
Az egészségügyi adatkészletek teljes képet adnak az orvosoknak a páciens egészségi állapotáról. Például a páciens kórtörténetére, gyógyszereire és életmódjára vonatkozó adatok segíthetnek előre jelezni, hogy esetleg krónikus betegségbe kerülhet-e. Ez lehetővé teszi az orvosok számára, hogy időben lépjenek be, és készítsenek kezelési tervet az adott beteg számára.
Az orvosi kutatás segítése:
Az egészségügyi adatkészletek tanulmányozásával az orvoskutatók megvizsgálhatják, hogyan kezelik a rákos betegeket, és hogyan gyógyulnak meg. Megtalálhatják azokat a kezeléseket, amelyek a való világban a legjobban működnek. Például a biobankokban található daganatminták és a betegek kezelési előzményeinek megtekintésével a kutatók megtudhatják, hogyan reagálnak bizonyos mutációk és rákfehérjék a különböző kezelésekre. Ez az adatvezérelt megközelítés segít megtalálni azokat a trendeket, amelyek jobb betegek kimeneteléhez vezetnek.
Jobb diagnózis és kezelés:
Az orvosok mesterséges intelligencia eszközöket használnak, hogy megvizsgálják az egészségügyi adatkészleteket és megtalálják a fontos mintákat. Ez segít nekik a betegségek jobb diagnosztizálásában és kezelésében. A radiológiában az AI gyorsabban és pontosabban talál problémákat a szkennelésekben, mint az emberek. Ez azt jelenti, hogy az orvosok hamarabb felfedezhetik a betegségeket, és hamarabb megkezdhetik a megfelelő kezelést. Az orvosi képannotáció gyorsabb és jobb diagnózishoz vezethet, ami javítja a betegek egészségét.
Népegészségügyi kezdeményezések segítése:
Képzeljen el egy kisvárost, ahol az egészségügyi szakértők adatkészleteket használtak az influenzajárvány nyomon követésére. Megnézték a mintákat, és megtalálták az érintett területeket. Ezekkel az adatokkal célzott oltási akciókat és egészségnevelő kampányokat indítottak. Ez az adatvezérelt megközelítés segített megfékezni az influenzát. Megmutatja, hogy az egészségügyi adatkészletek hogyan irányíthatják és javíthatják a közegészségügyi kezdeményezéseket.
Erősítő orvosi betekintés: 19 kötelező orvosi adatkészlet a gépi tanuláshoz
A nyílt adatkészletek elengedhetetlenek minden gépi tanulási modell megfelelő működéséhez. A gépi tanulást már használják az élettudományban, az egészségügyben és az orvostudományban, és nagyszerű eredményeket mutat. Segít előre jelezni a betegségeket és megérteni, hogyan terjednek. A gépi tanulás ötleteket ad arra vonatkozóan is, hogyan tudunk megfelelően gondoskodni beteg, idős és beteg emberekről egy közösségben. Jó adatkészletek nélkül ezek a gépi tanulási modellek nem lennének lehetségesek.
Általános és közegészségügy:
- data.gov: Az egyesült államokbeli egészségügyi adatokra összpontosít, amelyek több paraméter használatával is könnyen kereshetők. Az adatkészletek célja az Egyesült Államokban élő egyének jólétének javítása; az információ azonban hasznosnak bizonyulhat más kutatási vagy egyéb közegészségügyi képzési csoportok számára is.
- WHO: A globális egészségügyi prioritások köré összpontosuló adatkészleteket kínál. A platform felhasználóbarát keresési funkciót tartalmaz, és az adatkészletek mellett értékes betekintést nyújt a szóban forgó témák átfogó megértéséhez.
- Re3Data: Több mint 2,000 kutatási alanyra kiterjedő adatokat kínál több széles területre kategorizálva. Bár nem minden adatkészlet érhető el szabadon, a platform egyértelműen jelzi a struktúrát, és lehetővé teszi a könnyű keresést olyan tényezők alapján, mint a díjak, a tagsági követelmények és a szerzői jogi korlátozások.
- Emberi halálozási adatbázis 35 nemzet halálozási arányaira, népességszámaira, valamint különféle egészségügyi és demográfiai statisztikákra vonatkozó adatokhoz kínál hozzáférést.
- CHDS: A Child Health and Development Studies adatkészletek célja a betegségek és az egészség generációk közötti terjedésének vizsgálata. Olyan adatkészleteket foglal magában, amelyek nemcsak a genomiális expressziót kutatják, hanem a társadalmi, környezeti és kulturális tényezők betegségre és egészségre gyakorolt hatását is.
- Merck Molecular Activity Challenge: Olyan adatkészleteket mutat be, amelyek célja a gépi tanulás alkalmazásának elősegítése a gyógyszerkutatásban a különböző molekulakombinációk közötti lehetséges kölcsönhatások szimulálásával.
- 1000 Genomes Project: 2,500 egyed szekvenálási adatait tartalmazza 26 különböző populációban, így az egyik legnagyobb hozzáférhető genomtároló. Ez a nemzetközi együttműködés az AWS-en keresztül érhető el. (Ne feledje, hogy támogatások állnak rendelkezésre genomprojektekhez.)
Képadatkészletek az élettudományok, az egészségügy és az orvostudomány számára:
- Nyissa meg a Neuro-t: Ingyenes és nyílt platformként az OpenNeuro orvosi képek széles skáláját osztja meg, beleértve az MRI-, MEG-, EEG-, iEEG-, ECoG-, ASL- és PET-adatokat. A 563 19,187 résztvevőt lefedő XNUMX orvosi adatkészlettel felbecsülhetetlen értékű forrásként szolgál a kutatók és az egészségügyi szakemberek számára.
- Oázis: Az Open Access Series of Imaging Studies-ból (OASIS) származó adatkészlet arra törekszik, hogy a tudományos közösség javára ingyenesen biztosítson neuroimaging adatokat a nyilvánosság számára. 1,098 témát ölel fel 2,168 MR és 1,608 PET ülés során, rengeteg információt kínálva a kutatók számára.
- Alzheimer-kór neuroimaging kezdeményezése: Az Alzheimer's Disease Neuroimaging Initiative (ADNI) olyan kutatók által gyűjtött adatokat mutat be világszerte, akik elkötelezettek az Alzheimer-kór progressziójának meghatározásában. Az adatkészlet MRI- és PET-képek, genetikai információk, kognitív tesztek, valamint CSF és vér biomarkereinek átfogó gyűjteményét tartalmazza, megkönnyítve ennek az összetett állapotnak a megértését.
Kórházi adatkészletek:
- Szolgáltatói adatkatalógus: Átfogó szolgáltatói adatkészletek elérése és letöltése olyan területeken, mint a dialízis létesítmények, orvosi rendelők, otthoni egészségügyi szolgáltatások, hospice ellátás, kórházak, fekvőbeteg-rehabilitáció, hosszú távú ápolást biztosító kórházak, rehabilitációs szolgáltatásokat nyújtó ápolóotthonok, orvosi rendelői látogatások költségei és beszállítói névjegyzékek.
- Egészségügyi költség- és felhasználási projekt (HCUP): Ezt az átfogó, országos adatbázist azért hozták létre, hogy azonosítsa, nyomon kövesse és elemezze az egészségügyi ellátás igénybevételével, hozzáférésével, díjaival, minőségével és eredményeivel kapcsolatos nemzeti trendeket. A HCUP-on belül minden egyes orvosi adatkészlet találkozási szintű információt tartalmaz az egyesült államokbeli kórházak összes betegellátásáról, sürgősségi osztálylátogatásairól és ambuláns műtéteiről, rengeteg adatot biztosítva a kutatók és a döntéshozók számára.
- MIMIC Critical Care adatbázis: Az MIT által a számítógépes fiziológia céljaira kifejlesztett, nyíltan elérhető orvosi adatkészlet több mint 40,000 XNUMX kritikus ellátásban szenvedő beteg azonosítatlan egészségügyi adatait tartalmazza. A MIMIC adatkészlet értékes forrásként szolgál a kritikus ellátást tanulmányozó és új számítási módszereket kidolgozó kutatók számára.
Rák adatkészletek:
- CT orvosi képek: A CT-képadatok tendenciáinak vizsgálatára szolgáló alternatív módszerek megkönnyítésére készült ez az adatkészlet rákos betegek CT-vizsgálatait tartalmazza, olyan tényezőkre összpontosítva, mint a kontraszt, a modalitás és a beteg életkora. A kutatók ezeket az adatokat felhasználhatják új képalkotó technikák kifejlesztésére, valamint a rákdiagnózis és -kezelés mintáinak elemzésére.
- Nemzetközi Együttműködés a rákjelentéssel kapcsolatban (ICCR): Az ICCR-en belüli orvosi adatkészleteket azért fejlesztették ki és biztosították, hogy világszerte támogassák a rákjelentés bizonyítékokon alapuló megközelítését. A rákjelentések szabványosításával az ICCR célja, hogy javítsa a rákkeltő adatok minőségét és összehasonlíthatóságát az intézmények és országok között.
- SEER rák előfordulása: Az Egyesült Államok kormánya által biztosított rákadatok alapvető demográfiai megkülönböztetések, például faj, nem és életkor alapján vannak szegmentálva. A SEER adatkészlet lehetővé teszi a kutatók számára, hogy megvizsgálják a rákos megbetegedések előfordulását és a túlélési arányokat a népesség különböző alcsoportjaiban, tájékoztatva a közegészségügyi kezdeményezéseket és a kutatási prioritásokat.
- Tüdőrák adatkészlet: Ez az ingyenes adatkészlet 1995-ig visszamenőleg tartalmaz információkat a tüdőrákos esetekről. A kutatók felhasználhatják ezeket az adatokat a tüdőrák előfordulásának, kezelésének és kimenetelének hosszú távú tendenciáinak tanulmányozására, valamint új diagnosztikai és prognosztikai eszközök kifejlesztésére.
További források az egészségügyi adatokhoz:
- Kaggle: Sokoldalú adatkészlet-tár – A Kaggle továbbra is kiemelkedő platform az adatkészletek széles skálájához, nem csak az egészségügyi szektorra. Ideális azok számára, akik különféle tantárgyak felé ágaznak, vagy akiknek változatos adatkészletekre van szükségük a modellképzéshez, a Kaggle egy gyakori forrás.
- Subreddit: Közösségvezérelt kincsesbánya – A megfelelő subreddit beszélgetések aranybánya lehet a nyílt adatkészletek számára. A nyilvános adatkészletek által nem kezelt rés- vagy konkrét lekérdezésekre a Reddit közösség birtokában lehet a válasz.
Gyorsítsa fel egészségügyi AI-projektjeit a Shaip prémium, használatra kész orvosi adatkészleteivel
Orvos és beteg beszélgetések adatkészlete
Adatkészletünk hangfájlokat tartalmaz az orvosok és a betegek között az egészségükkel és kezelési terveikkel kapcsolatos beszélgetésekről. Az akták 31 különböző orvosi szakterületet fednek le.
Mit tartalmaz?
- 257,977 XNUMX órányi valódi orvosi diktálási hang az egészségügyi beszédmodellek képzéséhez
- Hang különféle eszközökről, például telefonokról, digitális felvevőkről, beszédmikrofonokról és okostelefonokról
- A személyes adatokat tartalmazó hanganyagok és átiratok az adatvédelmi törvények betartása érdekében eltávolítva
CT SCAN képadatkészlet
Csúcsminőségű CT-vizsgálati képadatkészleteket kínálunk kutatáshoz és orvosi diagnosztikához. Több ezer kiváló minőségű kép áll rendelkezésünkre valódi betegektől, amelyeket a legújabb technikákkal dolgoztunk fel. Adatkészleteink segítenek az orvosoknak és kutatóknak jobban megérteni a különféle egészségügyi problémákat, mint például a rák, az agyi rendellenességek és a szívbetegségek.
Az adatok azt mutatják, hogy a leggyakoribb CT-vizsgálatok a mellkasról (6000) és a fejről (4350), jelentős számú vizsgálatot végeznek a hasról, a medencéről és más testrészekről is. A táblázatból az is kiderül, hogy bizonyos speciális vizsgálatokat, mint például a CT Covid HRCT és az angiopulmonalis vizsgálatokat elsősorban Indiában, Ázsiában, Európában és más országokban végeznek.
Elektronikus egészségügyi nyilvántartások (EHR) adatkészlet
Az elektronikus egészségügyi nyilvántartás (EHR) a páciens kórtörténetének digitális változata. Olyan információkat tartalmaznak, mint a diagnózisok, gyógyszerek, kezelési tervek, immunizálás dátumai, allergiák, orvosi képek (például CT-vizsgálatok, MRI-k és röntgenfelvételek), laboratóriumi vizsgálatok stb.
Használatra kész EHR-adatkészletünk jellemzői:
- Több mint 5.1 millió felvétel és orvosi hangfájl 31 orvosi szakterületen
- Hiteles orvosi feljegyzések ideálisak a klinikai NLP és más dokumentum AI modellek képzéséhez
- Metaadatok, beleértve az anonimizált MRN-t, a felvételi és elbocsátási dátumokat, a tartózkodás időtartamát, a nemet, a betegosztályt, a fizetőt, a pénzügyi osztályt, az államot, az elbocsátási hajlandóságot, az életkort, a DRG-t, a DRG leírását, a költségtérítést, az AMLOS-t, a GMLOS-t, a halálozás kockázatát, a betegség súlyosságát, csoportosító és a kórház irányítószáma
- Az összes betegosztályra kiterjedő nyilvántartás: fekvőbeteg, járóbeteg (klinikai, rehabilitációs, visszatérő, sebészeti nappali ellátás) és sürgősségi
- A személyazonosításra alkalmas adatokat (PII) tartalmazó dokumentumok szerkesztve, a HIPAA Safe Harbor irányelveinek megfelelően
MRI képadatkészlet
Prémium minőségű MRI képadatkészleteket szállítunk az orvosi kutatások és diagnózisok támogatására. Kiterjedt gyűjteményünk több ezer nagy felbontású képet tartalmaz tényleges betegektől, amelyek mindegyike a legmodernebb módszerekkel lett feldolgozva. Adatkészleteink felhasználásával az egészségügyi szakemberek és kutatók elmélyíthetik az egészségügyi állapotok széles skálájának megértését, ami végső soron a betegek jobb kimeneteléhez vezet.
Különböző testrészek MRI-képadatkészlete, a gerinc és az agy esetében a legmagasabb, egyenként 5000. Az adatok Indiában, Közép-Ázsiában és Európában, valamint közép-ázsiai régiókban oszlanak meg.
X-ray képadatkészlet
A legjobb minőségű röntgenkép-adatkészletek kutatáshoz és orvosi diagnózishoz. Több ezer nagy felbontású kép áll rendelkezésünkre valódi betegektől, amelyeket a legújabb technikákkal dolgoztunk fel. A Shaip segítségével megbízható orvosi adatokhoz férhet hozzá kutatásai és páciensei eredményeinek javítása érdekében.
Röntgen-adatkészlet megoszlása a különböző testrészek között, a mellkasban a legmagasabb az 1000-es szám Közép-Ázsiában. Az alsó és felső végtagok száma összesen 850, Közép-Ázsia és Közép-Ázsia és Európa régiói között oszlanak meg.