Softver - program za prepoznavanje teksta - Optičko prepoznavanje znakova

Softveri za prepoznavanje teksta, Optičko prepoznavanje znakova (Optical Character Recognition, OCR), dobijenu sliku štampanog teksta na papiru (koju obično učitamo sa skenera ili iz fajla) pretvaraju u digitalni tekst. Ovako dobijen tekst se može pročitati uz pomoć čitača ekrana (screen readera) u samom programu ili se može snimiti kao tekstualni dokument u nekoliko formata.

Trenutno se u Srbiji najčešće koristi softver FineReader kao najefikasniji program za prepoznavanje tekstova na našem jeziku.

Ranije su slepe osobe koristile programe Recognita i Kurzwell.

Optičko prepoznavanje znakova (OCR) se koristi za konverziju knjiga i dokumenata koji su štampani na papiru u digitalni oblik (tekst).

Optičko prepoznavanje znakova - teksta koriste slepe osobe kako bi mogle da "čitaju" štampani materijal (crni tisak) uz pomoć čitača ekrana (screen readera) i sintetizatora. Postupak:

  • dokument ili knjiga se skenira (ili se već skenirani dokument uveze)
  • izvrši se prepoznavanje teksta
  • dobijeni tekst se "čita" direktno u OCR programu (čita čitač ekrana (screen readera) i govori sintetizator ili se prikazuje na Brajevom redu - displeju).
  • se snimi za kasniju upotrebu
  • snimljeni dokument se može čitati i korigovati kao i svaki drugi.

Ceo postupak može raditi i slepa osoba korišćenjem čitača ekrana i jednog njegovog izlaza: sintetizatora govora ili Brajevog reda - displeja .

 

Saznajte više:

Istorija prepoznavanja teksta - Optičkog prepoznavanja znakova (OCR)

1929 Gustav Tauschek je dobio patent za optičko prepoznavanje znakova (OCR) u Nemačkoj, a potom je Hendl dobio patent za OCR(optičko prepoznavanje znakova) u SAD 1933. 1935 Tauschek dobiJa američki patent za svoj metod. Tauschekova mašina je mehanički uređaj koji se koristi šablone i fotodetektore.

RCA inženjeri su 1949 su radili na prvom računaru tipa OCR za pomoć slepim osobama za Administraciju veterana SAD, ali umesto pretvaranja štampanih slova na mašinski jezik (u tekst), uređaj ih konvertuje u mašinski jezik, a zatim je izgovara glasove - slova. To je ispalo previše skupo i nije bio u upotrebi posle testiranja.

1950, Dejvid H. Šepard , kriptoanalitičar u Oružanim snagama bezbednosne agencije u SAD, ukazao je na problem pretvaranja štampane poruke u mašinski jezik za računarsku obradu i izgradio je uređaje da se to uradi, što je objavljeno u  Washington Daily News od 27 aprila 1951. I Njujork tajms je 26. decembra 1953, nakon njegovog patenta je to objavio. Šepard je zatim osnovao kompaniju Intelligent Machines Research Corporation (IMR), koja je isporučila svetu prvih nekoliko OCR (optičko prepoznavanje znakova) sistema koji se koriste u komercijalne svrhe.

Prvi komercijalni sistem je instaliran na Reader's Digest 1955. Drugi sistem je prodat Standard Oil Company za čitanje kreditnih kartica u svrhu naplate. Kasnih 1950-ih prodat je čitač novčanica za Ohio Bell Telephone Company i "page scanner" za United States Air Force za čitanje i prenos poruka putem teleprintera. IBM i drugi su se kasnije licencirali na Šepardove OCR patente.

1965 Reader's Digest i RCA su sarađivali oko izrade OCR (optičko prepoznavanje znakova) čitača dokumenata tako da digitalizuje serijske brojeve na Reader's Digest kuponima. U dokumentima štampanim od strane RCA štampača koristio se  OCR-A font. Čitač je bio direktno povezan sa RCA 301 računarom (jednim od prvih složenih računara). Ovaj čitač je potom specijalizovan u dokument čitač instaliran na TWA, gde čitač obrađuje avionske karte. Čitač obrađuje dokumenta brzinom od 1.500 dokumenata po minutu, i proverava svaki dokument, odbacujući one koje nije bio u stanju da pravilno čita. Ovaj proizvod je deo i linije proizvoda RCA kao čitač u procesu "Vraćeni Dokumenti", kao što su vraćeni komunalni računi i računi osiguranja.

Poštanska služba SAD je koristila OCR (optičko prepoznavanje znakova) uređaje za sortiranje pošte od 1965 zasnovane na tehnologiji koju je prvenstveno osmislio Jakov Rabinov (Jacob Rabinow). Prva upotreba OCR(optičko prepoznavanje znakova) u Evropi je bila od strane British General Post Office.

1965 je počelo za planiranje celog bankarskog sistema (National Giro) korišćenjem OCR tehnologije. Ovaj proces je uneo revoluciju u platnom sistemu u Velikoj Britaniji.

Canada Post je počeo koristiti OCR(optičko prepoznavanje znakova) sisteme od 1971. OCR(optičko prepoznavanje znakova) sistem čita ime i adresu primaoca u prvom mehanizovanom centru za sortiranje, i štampa bar kod za rutiranje na koverti na osnovu poštanskog broja. Koverte su mogle biti obrađene opremom baziranoj na jednostavnim barkod čitačima.

Godine 1974 Rej Kurzveil (Ray Kurzweil) je osnovao kompaniju Kurzveil Computer Products, Inc i vodio razvoj prvog Omni-fonta, optičkog sistem za prepoznavanje znakova - računarskog programa sposobnog da prepozna tekst štampan u svakom normalnom fontu. On je odlučio da bi najboljom primenom ove tehnologije stvori mašinu za čitanje za slepe, koja će omogućiti slepim osobama da imaju računar koji će im čitati tekst naglas. Ovakav uređaj zahteva otkrića dve tehnologije - CCD skenera i  tekst-u-govor(text-to-speech, sintetizatora govora). 13 januara 1976. predstavljen je gotov proizvod na konferenciji za novinare koju je predvodio Kurzveil i lideri Nacionalnog saveza slepih (National Federation of the Blind).

1978 Kurzweil Computer Products je počeo sa prodajom komercijalnih verzija programa-softvera za optičko prepoznavanje znakova. Jedan od prvih kupaca je bio LexisNexis, kupio je softver za upload pravnih dokumenata i vesti na svojoj on-line bazi podataka koja je bila u povoju. Dve godine kasnije, Kurzveil je prodao svoju kompaniju Xerox-u, koji je imao interese za dalju komercijalizaciju i razvoj konverzije teksta sa papira-na-računar.

Kurzweil Computer Products postao je filijala Xerox-a poznata kao Scansoft, sada Nuance komunikacije (Nuance Communications).