Adatok megjegyzése – NER

Elnevezett entitás-felismerés (NER) megjegyzés a klinikai NLP számára

Ner annotáció

Jól jegyzett és arany standard klinikai szöveges adatok a klinikai NLP képzéséhez/fejlesztéséhez az Healthcare API következő verziójának elkészítéséhez

A klinikai természetes nyelvi feldolgozás (NLP) fontosságát az elmúlt években egyre inkább felismerték, és ez átalakuló előrelépésekhez vezetett. A klinikai NLP lehetővé teszi a számítógépek számára, hogy megértsék azt a gazdag jelentést, amely az orvos írásos betegelemzése mögött rejlik. A klinikai NLP-nek többféle felhasználási esete is lehet, kezdve a népesség-egészségügyi elemzéstől a klinikai dokumentáció javításán át a beszédfelismerésen át a klinikai vizsgálatok egyeztetéséig stb.

Bármely klinikai NLP-modell fejlesztéséhez és betanításához hatalmas mennyiségű pontos, elfogulatlan és jól jegyzett adatkészletekre van szükség. A Gold Standard és a változatos adatok segítenek az NLP-motorok pontosságának és visszahívásának növelésében.

kötet

Jegyzetekkel ellátott dokumentumok száma
10
Annotált oldalak száma
10 +
Projekt időtartama
< 1 hónap

Kihívások

Az ügyfél alig várta, hogy új entitástípusokkal képezze ki és fejlessze természetes nyelvi feldolgozási (NLP) platformját, és azonosítsa a különböző típusok közötti kapcsolatot. Ezen túlmenően olyan szállítókat értékeltek, akik nagy pontosságot kínáltak, betartották a helyi törvényeket, és rendelkeztek a szükséges orvosi ismeretekkel ahhoz, hogy nagy mennyiségű adatot annotáljanak.

A feladat legfeljebb 20,000 15,000 feliratozott irat címkézése és megjegyzése volt, beleértve legfeljebb 5,000 1 címkézett feljegyzést a fekvő- és járóbeteg-beteg-egészségügyi nyilvántartás (EHR) adataiból és legfeljebb 2 XNUMX címkézett irat átírt orvosi diktátumokból, egyenlően elosztva (XNUMX) földrajzi származás és (földrajzi származás) között. XNUMX) elérhető orvosi szakterületek.

Tehát összefoglalva a kihívásokat:

  • Szerezzen heterogén klinikai adatokat az NLP platform képzéséhez
  • Azonosítsa a kapcsolatot a különböző entitások között a kritikus információk levezetéséhez
  • Képesség és szakértelem komplex klinikai dokumentumok széles körének címkézésére/megjegyzésére
  • A költségek kézben tartása nagy mennyiségű adat címkézésével/megjegyzésével a klinikai NLP képzéséhez az előírt időkereten belül
  • Jegyezze fel az entitásokat a 75%-ban EHR- és 25%-ban diktálási rekordokból álló klinikai adatkészletben.
  • Adatok azonosításának megszüntetése a kézbesítéskor

Egyéb kihívások a természetes nyelv megértésében

Kétértelműség

A szavak egyediek, de a kontextustól függően eltérő jelentéssel bírhatnak, ami kétértelműséget eredményez lexikai, szintaktikai és szemantikai szinten.

Szinonimia

Ugyanazt a gondolatot különböző kifejezésekkel fejezhetjük ki, amelyek egyben szinonimák is: a nagy és a nagy ugyanazt jelenti egy tárgy leírásánál.

Korreferencia

Korreferencia-felbontásnak nevezzük azt a folyamatot, amely során a szövegben ugyanarra az entitásra utaló összes kifejezést megtaláljuk.

Személyiség, szándék, érzelmek

A beszélő személyiségétől, szándékától és érzelmeitől függően ugyanarra a gondolatra vonatkozóan eltérően fejezhetők ki.

Megoldás

Az orvosi adatok és ismeretek nagy mennyiségben állnak rendelkezésre, orvosi dokumentumok formájában, de elsősorban strukturálatlan formában. A Medical entity Annotation / Named Entity Recognition (NER) annotációval Shaip képes volt a strukturálatlan adatokat strukturált formátumba konvertálni azáltal, hogy a különböző típusú klinikai feljegyzésekből származó hasznos információkat kommentálta. Az entitások azonosítása után a köztük lévő kapcsolatokat is feltérképezték a kritikus információk azonosítása érdekében.

Munkakör: Egészségügyi entitás említése

9 Entitástípusok

  • Egészségi állapot
  • Orvosi eljárás
  • Anatómiai felépítés
  • Gyógyszer
  • Orvosi eszköz
  • Testmérés
  • Szerhasználat
  • Laboratóriumi adatok
  • A test működése

17 Módosítók

  • Gyógyszermódosítók: Erősség, Egység, Dózis, Kezdő, Gyakoriság, Útvonal, Időtartam, Állapot
  • Testméret-módosítók: érték, mértékegység, eredmény
  • Eljárásmódosítók: Módszer
    • Laboratóriumi adatmódosító: laborérték, laboratóriumi egység, laboratóriumi eredmény
  • A súlyosság
  • Az eljárás eredménye

27 Kapcsolatok és a beteg állapota

Eredmény

A megjegyzésekkel ellátott adatokat az Ügyfél klinikai NLP-platformjának fejlesztésére és betanítására használnák fel, amelyet beépítenek a Healthcare API következő verziójába. Az ügyfél által nyújtott előnyök a következők voltak:

  • A címkézett/annotált adatok megfeleltek az Ügyfél szabványos adatjelölési irányelveinek.
  • Heterogén adatkészleteket használtak az NLP Platform képzésére a nagyobb pontosság érdekében.
  • A különböző entitások közötti kapcsolatokat, pl. anatómiai testfelépítés <> orvosi eszköz, egészségügyi állapot <> orvosi eszköz, egészségügyi állapot <> gyógyszeres kezelés, egészségügyi állapot <> eljárást azonosítottak a kritikus orvosi információk levezetésére.
  • A címkézett/annotált adatok széles körét szintén eltávolították a kézbesítéskor.

A Shaip-pal való együttműködésünk jelentősen előremozdította projektünket az Ambient Technology és a Conversational AI területén az egészségügyben. A szintetikus egészségügyi párbeszédek létrehozásában és átírásában szerzett szakértelmük szilárd alapot biztosított, bemutatva a szintetikus adatokban rejlő lehetőségeket a szabályozási kihívások leküzdésében. A Shaip segítségével átléptük ezeket az akadályokat, és most egy lépéssel közelebb kerültünk az intuitív egészségügyi megoldásokról alkotott elképzelésünk megvalósításához.

Arany-5 csillagos

Gyorsítsa fel a társalgási AI -t
alkalmazásfejlesztés 100% -ban