Adatok megjegyzése – NER
Elnevezett entitás-felismerés (NER) megjegyzés a klinikai NLP számára
Jól jegyzett és arany standard klinikai szöveges adatok a klinikai NLP képzéséhez/fejlesztéséhez az Healthcare API következő verziójának elkészítéséhez
A klinikai természetes nyelvi feldolgozás (NLP) fontosságát az elmúlt években egyre inkább felismerték, és ez átalakuló előrelépésekhez vezetett. A klinikai NLP lehetővé teszi a számítógépek számára, hogy megértsék azt a gazdag jelentést, amely az orvos írásos betegelemzése mögött rejlik. A klinikai NLP-nek többféle felhasználási esete is lehet, kezdve a népesség-egészségügyi elemzéstől a klinikai dokumentáció javításán át a beszédfelismerésen át a klinikai vizsgálatok egyeztetéséig stb.
Bármely klinikai NLP-modell fejlesztéséhez és betanításához hatalmas mennyiségű pontos, elfogulatlan és jól jegyzett adatkészletekre van szükség. A Gold Standard és a változatos adatok segítenek az NLP-motorok pontosságának és visszahívásának növelésében.
kötet
Kihívások
Az ügyfél alig várta, hogy új entitástípusokkal képezze ki és fejlessze természetes nyelvi feldolgozási (NLP) platformját, és azonosítsa a különböző típusok közötti kapcsolatot. Ezen túlmenően olyan szállítókat értékeltek, akik nagy pontosságot kínáltak, betartották a helyi törvényeket, és rendelkeztek a szükséges orvosi ismeretekkel ahhoz, hogy nagy mennyiségű adatot annotáljanak.
A feladat legfeljebb 20,000 15,000 feliratozott irat címkézése és megjegyzése volt, beleértve legfeljebb 5,000 1 címkézett feljegyzést a fekvő- és járóbeteg-beteg-egészségügyi nyilvántartás (EHR) adataiból és legfeljebb 2 XNUMX címkézett irat átírt orvosi diktátumokból, egyenlően elosztva (XNUMX) földrajzi származás és (földrajzi származás) között. XNUMX) elérhető orvosi szakterületek.
Tehát összefoglalva a kihívásokat:
- Szerezzen heterogén klinikai adatokat az NLP platform képzéséhez
- Azonosítsa a kapcsolatot a különböző entitások között a kritikus információk levezetéséhez
- Képesség és szakértelem komplex klinikai dokumentumok széles körének címkézésére/megjegyzésére
- A költségek kézben tartása nagy mennyiségű adat címkézésével/megjegyzésével a klinikai NLP képzéséhez az előírt időkereten belül
- Jegyezze fel az entitásokat a 75%-ban EHR- és 25%-ban diktálási rekordokból álló klinikai adatkészletben.
- Adatok azonosításának megszüntetése a kézbesítéskor
Egyéb kihívások a természetes nyelv megértésében
A szavak egyediek, de a kontextustól függően eltérő jelentéssel bírhatnak, ami kétértelműséget eredményez lexikai, szintaktikai és szemantikai szinten.
Ugyanazt a gondolatot különböző kifejezésekkel fejezhetjük ki, amelyek egyben szinonimák is: a nagy és a nagy ugyanazt jelenti egy tárgy leírásánál.
Korreferencia-felbontásnak nevezzük azt a folyamatot, amely során a szövegben ugyanarra az entitásra utaló összes kifejezést megtaláljuk.
A beszélő személyiségétől, szándékától és érzelmeitől függően ugyanarra a gondolatra vonatkozóan eltérően fejezhetők ki.
Megoldás
Az orvosi adatok és ismeretek nagy mennyiségben állnak rendelkezésre, orvosi dokumentumok formájában, de elsősorban strukturálatlan formában. A Medical entity Annotation / Named Entity Recognition (NER) annotációval Shaip képes volt a strukturálatlan adatokat strukturált formátumba konvertálni azáltal, hogy a különböző típusú klinikai feljegyzésekből származó hasznos információkat kommentálta. Az entitások azonosítása után a köztük lévő kapcsolatokat is feltérképezték a kritikus információk azonosítása érdekében.
Munkakör: Egészségügyi entitás említése
9 Entitástípusok
- Egészségi állapot
- Orvosi eljárás
- Anatómiai felépítés
- Gyógyszer
- Orvosi eszköz
- Testmérés
- Szerhasználat
- Laboratóriumi adatok
- A test működése
17 Módosítók
- Gyógyszermódosítók: Erősség, Egység, Dózis, Kezdő, Gyakoriság, Útvonal, Időtartam, Állapot
- Testméret-módosítók: érték, mértékegység, eredmény
- Eljárásmódosítók: Módszer
• Laboratóriumi adatmódosító: laborérték, laboratóriumi egység, laboratóriumi eredmény - A súlyosság
- Az eljárás eredménye
27 Kapcsolatok és a beteg állapota
Eredmény
A megjegyzésekkel ellátott adatokat az Ügyfél klinikai NLP-platformjának fejlesztésére és betanítására használnák fel, amelyet beépítenek a Healthcare API következő verziójába. Az ügyfél által nyújtott előnyök a következők voltak:
- A címkézett/annotált adatok megfeleltek az Ügyfél szabványos adatjelölési irányelveinek.
- Heterogén adatkészleteket használtak az NLP Platform képzésére a nagyobb pontosság érdekében.
- A különböző entitások közötti kapcsolatokat, pl. anatómiai testfelépítés <> orvosi eszköz, egészségügyi állapot <> orvosi eszköz, egészségügyi állapot <> gyógyszeres kezelés, egészségügyi állapot <> eljárást azonosítottak a kritikus orvosi információk levezetésére.
- A címkézett/annotált adatok széles körét szintén eltávolították a kézbesítéskor.
A Shaip-pal való együttműködésünk jelentősen előremozdította projektünket az Ambient Technology és a Conversational AI területén az egészségügyben. A szintetikus egészségügyi párbeszédek létrehozásában és átírásában szerzett szakértelmük szilárd alapot biztosított, bemutatva a szintetikus adatokban rejlő lehetőségeket a szabályozási kihívások leküzdésében. A Shaip segítségével átléptük ezeket az akadályokat, és most egy lépéssel közelebb kerültünk az intuitív egészségügyi megoldásokról alkotott elképzelésünk megvalósításához.