OCR

Namestite Tesseract OCR v Linux

Namestite Tesseract OCR v Linux

Tesseract: brezplačna raztopina OCR

Uvod

Tessereact velja za eno najboljših razpoložljivih rešitev OCR. Od leta 2006 ga sponzorira Google, prej pa ga je razvil Hewlett Packard v C in C ++ med letoma 1985 in 1998.   Sistem je sposoben prepoznati celo rokopis, lahko se nauči z večjo natančnostjo in je med najbolj razvitimi in popolnimi na trgu.

Z lahkoto premaga komercialne konkurente, kot je ABBY, če iščete resno rešitev za OCR, je Tesseract najnatančnejša, vendar ne pričakujte obsežnih rešitev: uporablja jedro na postopek, kar pomeni 8-jedrni procesor sprejel) bo lahko hkrati obdelal 8 ali 16 slik.

Ko sem uporabljal Tesseract, smo upravljali na tisoče potencialnih strank, ki so nalagale ročno napisane vsebine, slike z besedilom itd. Uporabili smo 48 osrednjih strežnikov, z DatabaseByDesign in nato z AWS nikoli nismo imeli težav z viri.

Imeli smo nalagalnik, ki je razlikoval med besedilnimi datotekami, kot so datoteke Microsoft Office ali Open Office, ter slikami ali optično prebranimi dokumenti. Naložilec je na področju prepoznavanja besedila določil, katerikoli skripti OCR ali PHP bodo obdelali naročilo.

Tesseact je odlična rešitev, toda preden premislite, morate vedeti, da so zadnje različice Tesserakta prinesle velike izboljšave, nekatere od njih pomenijo trdo delo. Medtem ko bi lahko usposabljanje trajalo ure ali dni, najnovejše različice Tessercta lahko trajajo dni, tedne ali celo mesece, če iščete večjezično rešitev OCR.


Namestitev Tesseract 4 v Debian / Ubuntu:

apt-get namestite tesseract-ocr

Če uporabljate drugačno distribucijo Linuxa, boste morali kopirati zadnjo različico repozitorija github in kopirati .datoteka z usposobljenimi podatki v 'tessdata' (/ usr / share / tesseract-ocr / tessdata ali / usr / share / tessdata).

Privzeto bo Tesseract namestil angleški jezikovni paket za namestitev dodatnih jezikov

apt-get namestite tesseract-ocr-LANG

na primer, da dodate hebrejščino:

apt-get namestite tesseract-ocr-heb

S tekom lahko vključite vse jezike:

apt-get namestite tesseract-ocr-all

Da bo Tesseract pravilno deloval, bomo morali uporabiti ukaz »pretvori« (pretvorba med slikovnimi formati ter spreminjanje velikosti slike, zameglitev, obrezovanje, odstranjevanje madežev, drsenje, risanje, obračanje, združevanje, ponovni vzorec in veliko več), ki ga je poslal Imagemagick

Omogočimo namestitev imagemagick z apt-get:

apt-get namestite imagemagick

Zdaj pa preizkusimo Tesseract, poiščemo sliko, ki vsebuje besedilo, in zaženimo:

tesseract [ime_slike] [ime_izhodne datoteke]

Če je nameščen pravilno, bo Tesseract izvlekel besedilo iz slike.

Ko sem delal s Tesseractom, je bilo vse, kar smo potrebovali, štetje dokumentov. Kot pri katerem koli drugem programu, ki ga lahko in morate trenirati, lahko tudi v Wordu določimo nekaj simbolov, ki jih je mogoče šteti ali ne, če štejemo ali ne števila itd. enako pri Tesseractu.

Lahko tudi naučimo njegovo občutljivost za določene slike.


Optimizacija Tesseract:

Optimizacija velikosti: Po uradnih virih je optimalna velikost slikovnih pik za sliko, ki jo Tesseract uspešno obdela, 300 DPI. Za uveljavitev tega DPI bomo morali obdelati katero koli sliko s parametrom -r. Če povečate DPI, se bo podaljšal tudi čas obdelave.

Zasuk strani: Če se pri optično prebrani strani stran ne zavrti pravilno in ostane 180 ° ali 45 °, se natančnost Tesserakta zmanjša, lahko s tem skriptom Python samodejno zaznate in odpravite težave z vrtenjem.

Odstranitev meje: Po besedah ​​Tesseractovega uradnega človeka lahko meje napačno izberemo kot znake, zlasti temne obrobe in tam, kjer je gradacija različna. Odstranjevanje robov je lahko dober korak za doseganje največje natančnosti s Tesseractom.

Odstranjevanje hrupa: Po besedah ​​Tesseracts je šum "naključno spreminjanje svetlosti ali barve na sliki". Lahko ga odstranimo v binarizacija korak, kar pomeni polariziranje barv.


Usposabljanje Tesseract:

Medtem ko večina vadnic zajema samo namestitev Tesserakta, bom povzel, kako trenirati svoj OCR sistem, tukaj lahko najdemo vadnico za vse različice. V tem članku bom povzel, kako trenirati Tesseract 4, ki vključuje novega „Mehanizem za prepoznavanje na nevronski mreži, ki zagotavlja bistveno večjo natančnost (na slikah dokumentov) kot prejšnje različice, v zameno za znatno povečanje zahtevane računske moči. V zapletenih jezikih pa je morda dejansko hitrejši od osnovnega Tesseract."

Pred nadaljevanjem bomo morali namestiti dodatne knjižnice:

sudo apt-get namestite libicu-dev
sudo apt-get namestite libpango1.0-razv
sudo apt-get namestite libcairo2-dev

In orodja za vadbo bomo namestili tako, da zaženemo v imeniku Tesseract:

naredite
izvedite trening
sudo make training-install

Glede na uradni wiki podjetja Tesseract imamo trenutno 3 možnosti za usposabljanje našega sistema OCR:

Čeprav se zgornje možnosti morda slišijo drugače, so koraki vadbe v resnici skoraj enaki, razen ukazne vrstice, zato je razmeroma enostavno preizkusiti vse načine, glede na čas ali strojno opremo za njihovo vzporedno izvajanje."

V tej vadnici bomo zagnali samo teststrain.sh skript, ki bo poklical potrebne programe za učenje določenega jezika.

Najprej omogočimo kloniranje vseh datotek v našem / usr / share / tesseract-ocr:

klon git https: // github.com / tesseract-ocr / tesseract

Pojdite na / usr / share / tesseract-ocr / tesseract / training (privzeti namestitveni imenik Tesseract) in zaženite:

$ ./ tesstrain.sh --lang heb --langdata_dir / usr / share / tesseract-ocr / langdata --tessdata_dir / usr / share / tesseract-ocr / tessdata 

Spremenite "heb" za jezik, ki ga želite trenirati, in uredite tudi pot do svojih podatkov.

V imeniku / usr / share / tesseract-ocr / tesseract / training našli boste datoteko, specifično za jezik.sh koristno dodati pravila za določene jezike.


Odpravljanje težav

Tesseract je zame najboljša rešitev za optično prepoznavanje znakov, toda v zadnjem času se je precej spremenil v primerjavi s prejšnjimi različicami in mnogi uporabniki se pritožujejo nad spremembami ali stvarmi, ki ne delujejo več, ne bi me skrbelo, saj se zdi, da spremembe dajejo odlične rezultate. Tesseractova skupnost je zelo aktivna, če naletite na težave pri zagonu tesseracta, postanite del teseractove skupnosti tukaj.

Kako uporabljati AutoKey za avtomatizacijo iger Linux
AutoKey je namizni pripomoček za avtomatizacijo za Linux in X11, programiran v Python 3, GTK in Qt. Z njegovo funkcijo skriptiranja in MACRO lahko avt...
Kako prikazati števec FPS v igrah Linux
Linux gaming je dobil velik zagon, ko je Valve leta 2012 napovedal podporo Linuxu za odjemalca Steam in njihove igre. Od takrat se je veliko AAA in in...
Kako prenesti in igrati Sid Meier's Civilization VI v Linuxu
Uvod v igro Civilization 6 je sodoben pogled na klasični koncept, uveden v seriji iger Age of Empires. Ideja je bila dokaj preprosta; začeli bi v zelo...