Pronađi članak:

5. 1. 2018.

Kako funkcioniše OCR prepoznavanje teksta?



Verovatno ste nekada imali potrebu da digitalizujete dokument u pisanoj formi. Situacija je jasna, ako ne postoji digitalna verzija dokumenta, preostaju vam dve opcije. Možete da prepišete tekst ili da potražite neki OCR (Optical Character Recognition) program. Pokazaćemo vam kako funkcioniše ova druga varijanta.

U današnje vreme, većina dokumenata je u digitalnoj verziji, a idealno je kada tu verziju možemo da uređujemo. Pravljenje analogne verzije od digitalne kopije i više je nego jednostavno, sve što vam je potrebno su štampač i skraćenica CMD + P.




Međutim, isti taj proces u obrnutom smeru i nije toliko jednostavan poduhvat. Dobro, postoje skeneri, ali sa njima dobijamo samo kvalitetnu i dobro osvetljenu sliku svake stranice. Ali šta ako taj dokument kasnije želite da editujete? U krajnjem slučaju, preostaje vam prepisivanje, a to može biti mučan proces kada se radi o dokumentu većeg obima. Srećna okolnost je što danas za sve postoji aplikacija.



Skraćenica OCR odnosi se na postupak optičkog prepoznavanja znakova. Drugim rečima, ovakvi programi prepoznaju svaki pojedinačni znak u tekstu. Možda ne zvuči revolucionarno, ali radi se o jako značajnoj tehnologiji. Probajte samo da izračunate koliko različitih fontova postoji, a dobar deo je i nama nekada nečitljiv. Najveći problem su znakovi koji vrlo slično izgledaju, pa može da dođe do zamene.

Kako algoritmi rešavaju ovaj problem? Za početak, moraju da eliminišu sve ometajuće faktore. S obzirom na to da osnovu čini papir, program mora da prepozna šta je slovo na slici, šta sam papir, a šta neka mrlja. Kako bi što lakše razdvojili komponente, posežu i za Photoshop magijom, prilagođavaju kontrast, naglašavaju bele delove i čine crnu boju jačom.



Posle toga sledi teži deo. Program pravi segmente i „konture” svakog znaka, pa onda upoređuje te konture sa svim fontovima koje prepoznaje. Radi se o upoređivanju na osnovu piksela. Neki napredniji programi mogu da uzimaju u obzir i krive i na taj način da naprave vektorske grafičke prikaze, čime se postiže veća preciznost.

A onda dolazimo do poslednjeg dela, rečnika. Ako ste ikada koristili neki OCR program, znate da je u većini slučajeva potrebno da izaberete jezik. Time olakšavate posao programu, pa on brže procenjuje koje znakove vidi.

Na žalost, ovaj postupak retko daje savršene rezultate, uvek ima grešaka, pa je pametno na kraju pregledati tekst. Mašinsko učenje i veštačka inteligencija mogli bi ubrzo da uvedu neke nove funkcije u ovo područje.



Najnapredniji OCR programi koriste se u poštanskim kancelarijama. Toliko su profesionalni da sa velikom preciznošću mogu da prepoznaju i rukopis, a ne zasnivaju se na nekom određenom fontu.

Ako želite da isprobate neku aplikaciju za OCR, tu su Adobe i Abby. Obe opcije su besplatne i dostupne i za iOS i za Mac:


Pročitaj još:




Saznajte sve o novim Apple proizvodima:

Ako želite da pratite dešavanja iz Apple sveta, dodajte nas na Facebook-u, pratite na Twitter-u i dodajte u svoje krugove na Google+ mreži.

izvor: imagazin

Нема коментара:

Постави коментар

Cenimo tvoj komentar!

Pročitaj još: