Kézírási adatkészletek

A 15 legjobb nyílt forráskódú kézírási adatkészlet az ML modellek betanításához

Az üzleti világ fenomenális ütemben változik, ennek ellenére ez a digitális átalakulás közel sem olyan széleskörű, mint azt szeretnénk. Az emberek még mindig fizikai dokumentumokat kezelnek mindennapi tevékenységeik során, a nagyvállalatoktól a kisvállalkozásokig. Bár a használat gyakorisága jelentősen csökkent, mégsem sikerült teljesen megszüntetni. A digitális használatra szánt dokumentumok beszkennelésének időigényes folyamata helyett a legújabbak felhasználásával OCR időtakarékos és hatékony.

Az optikai karakterfelismerő használat növekedése elsősorban az automatikus felismerő rendszerek gyártásának növekedésére vezethető vissza. Ennek eredményeként az OCR-technológia globális piaci értéke elérte 8.93 milliárd $ 2021-ben az előrejelzések szerint 15.4%-os CAGR-rel fog növekedni 2022 és 2030 között.

De mi is pontosan az OCR technológia? És miért jelent változást a hatékony AI-modelleket fejlesztő vállalkozások számára? Találjuk ki.

Mi az az OCR?

Más néven szövegfelismerés, OCR vagy optikai karakterfelismerés egy olyan program, amely nyomtatott vagy írott adatokat szkennelt dokumentumokból, csak képet tartalmazó PDF-ekből és kézzel írt feljegyzésekből géppel olvasható formátumba von ki. A szoftver minden betűt kiemel a képből, és szavakba, mondatokká egyesíti, így egyszerűvé téve a dokumentumok digitális elérését és szerkesztését.

Mik azok a nyílt forráskódú adatkészletek?

Számos hely van, ahol az OCR-technológiában nagy lehetőségek rejlenek. Egyes helyek közé tartozik a repülőtér, az e-könyvek kiadója, a hirdetések, a bankok és az ellátási lánc rendszerek. Ahhoz azonban, hogy az alkalmazások megfeleljenek a céljuknak, projektspecifikus képzésben kell részesülniük Optikai karakterfelismerési adatkészletek.

Az alkalmazás hatékonysága nagymértékben függ az adatkészlet minőségétől és a képzési módszertantól. Azonban megtalálni a minőségi digitális és kézírási adatkészletek nehéz az alkalmazás számára. Így sok vállalat nyílt forráskódú vagy ingyenesen használható adatkészleteket használ a védettek helyett.

A nyílt forráskódú adatkészletek előnyei és kihívásai

A vállalkozásoknak szembe kell nézniük egymással az előnyöket és a kihívásokat, hogy megértsék, kell-e szabadon felhasználható adatokat választaniuk ML-alkalmazásaikhoz.

Előnyök

  • Az adatok könnyen hozzáférhetők. Az adatok elérhetősége miatt az alkalmazás fejlesztési költsége jelentősen csökken.
  • Az alkalmazáshoz szükséges adatok gyűjtésére fordított idő és erőfeszítés jelentősen csökken, mivel az adatkészlet könnyen elérhető.
  • Rengeteg közösségi fórum vagy súgócsoport található, amelyek segítenek megtanulni, adaptálni és optimalizálni az adatkészletet.
  • A nyílt forráskódú adatkészlet egyik fő előnye, hogy nem szab semmilyen korlátozást a testreszabásra.
  •   A nyílt forráskódú adatok a lakosság nagy része számára hozzáférhetők, így az elemzés és az innováció monetáris akadályok nélkül lehetséges.

Kihívások

  • A projektre vonatkozó adatok nehezen szerezhetők be. Ezenkívül fennáll az információ hiányának és a rendelkezésre álló adatok helytelen felhasználásának lehetősége.
  • A védett adatok megszerzése időt és erőfeszítést igényel, és költséges
  • Bár az adatok beszerzése könnyebb lehet, a tudás és az elemzés költségei meghaladhatják a kezdeti előnyt.
  • Más fejlesztők is ugyanezeket az adatokat használják alkalmazások fejlesztéséhez.
  • Ezek az adatkészletek nagyon ki vannak téve a biztonság, a magánélet és a beleegyezés megsértésének.

15 legjobb kézírási és OCR-adatkészlet a gépi tanuláshoz

Nyílt forráskódú oCR adatkészletek

Számos nyílt forráskódú adatkészlet áll rendelkezésre a szövegfelismerő alkalmazások fejlesztéséhez. Néhány a legjobb 15 közül

  1. Az ICDAR adatkészlet

    A Nemzetközi Dokumentumelemzési és -felismerési konferencia 229 képzési és 233 tesztképet, valamint megjegyzéseket tartalmaz. A szövegészlelés kiértékelésének viszonyítási alapjaként működik.

  2. IIIT 5K-Word adatkészlet

    A Google képkeresőjéből átvett IIIT 5K-word jelzőtáblákról, hirdetőtáblákról, rendszámtáblákról és plakátokról származó szavak gyűjteménye. 5K kivágott szóképet tartalmaz, így a szövegfelismerő adatkészletek egyik legszélesebb körű gyűjteménye.

  3. NIST adatbázis

    A NIST vagy a National Institute of Science több mint 3600 kézírásmintából álló ingyenesen használható gyűjteményt kínál több mint 810,000 XNUMX karakteres képpel

  4. MNIST adatbázis

    Az NSIT 1. és 3. speciális adatbázisából származó MNIST adatbázis egy összeállított gyűjtemény, amely 60,000 10,000 kézzel írt számot tartalmaz a képzési készlethez és XNUMX XNUMX példát a tesztkészlethez. Ez a nyílt forráskódú adatbázis segít a modellek betanításában a minták felismerésére, miközben kevesebb időt kell fordítani az előfeldolgozásra.

  5. Szövegészlelés

    Egy nyílt forráskódú adatbázis, a szövegészlelési adatkészlet mintegy 500 beltéri és kültéri képet tartalmaz cégtáblákról, ajtótáblákról, figyelmeztető táblákról és egyebekről.

  6. Stanford OCR

    A Stanford által kiadott, ingyenesen használható adatkészlet az MIT Spoken Language Systems Group kézzel írott szógyűjteménye.

  7. DDI-100

    Más néven torzított dokumentumképek adatkészlete, a DDI-100 több mint 6658 oldalnyi dokumentum gyűjteménye, számos geometriai mintával és torzítással. Ezen kívül a DDI-100 több mint 99870 képet, bélyegmaszkot, szövegmaszkot és határolókeretet tartalmaz.

  8. RoadText-1K

    Az egyik legnagyobb adatkészlet, amely segít a modellek betanításában a videók szövegének észlelésére, a RoadText-1K 1000 videoklipet tartalmaz, határolókeret-szövegjegyzetekkel és a szöveg átírásával minden videókockában.

  9. MSRA-TD500

    300 képzést és 200 szöveges képet tartalmaz; az MSRA-TD500 kínai és angol karaktereket tartalmaz, és mondatszinten van megjegyzésekkel ellátva.

  10. MJSynth adatkészlet

    Az Oxfordi Egyetem által biztosított szóadatkészlet közel 9 millió szintetikusan generált képet tartalmaz, amelyek több mint 90 ezer angol nyelvű szót fednek le.

  11. Utcakép szövege

    Ez a Google Street View képeiből összegyűjtött adatkészlet elsősorban táblákról és utcaszintű táblákról tartalmaz szövegészlelési képeket.

  12. Dokumentum adatbázis

    A Dokumentumadatbázis 941 kézzel írott dokumentum gyűjteménye, beleértve a táblázatokat, képleteket, rajzokat, diagramokat, listákat és egyebeket, 189 írótól.

  13. Matematika kifejezések

    A Mathematics Expressions egy olyan adatbázis, amely 101 matematikai szimbólumot és 10,000 XNUMX kifejezést tartalmaz.

  14. Utcakép házszámok

    Ez a Google Street View-ból gyűjtött utcanézeti házszám egy 73257 utcai házszámjegyet tartalmazó adatbázis.

  15. Természeti környezet OCR

    A Natural Environment OCR egy világszerte közel 660 képből és 5238 szöveges megjegyzésből álló adatkészlet.

Ezek voltak a legjobb nyílt forráskódú adatkészletek a szövegészlelési alkalmazásokhoz használt ML modellek betanításához. Az üzleti és alkalmazási igényekhez igazodó választása időt és erőfeszítést igényelhet. Azonban kísérleteznie kell ezekkel az adatkészletekkel, mielőtt eldönti a megfelelőt.

A Shaip – ​​a magas rangú technológiai megoldások szállítója – segíti Önt egy megbízható és hatékony szövegészlelő alkalmazás felé. Technikai tapasztalatainkat felhasználva személyre szabható, optimalizált és hatékony OCR képzési adatkészletek különböző ügyfélprojektekhez. Ahhoz, hogy teljes mértékben megértsük képességeinket, vegye fel velünk a kapcsolatot még ma.

Közösségi megosztás