Pentru a face acest lucru, aveți nevoie de un scanner și de un program special de recunoaștere a textului. Acest articol va discuta despre analogul gratuit FineReader - CuneiForm(despre recunoașterea în FineReader - vezi acest articol).
Să începem...
CuneiForm
Puteți descărca de pe site-ul web al dezvoltatorului: http://cognitiveforms.com/
Un program de recunoaștere a textului open source. În plus, funcționează în toate versiunile de Windows: XP, Vista, 7, 8, ceea ce mulțumește. În plus, adăugați o traducere completă în limba rusă a programului!
Pro:
– recunoașterea textului în cele mai populare 20 de limbi ale lumii (în acest număr sunt incluse engleza și rusă);
– suport uriaș pentru diverse fonturi;
– verificarea dicționarului de text recunoscut;
- posibilitatea de salvare a rezultatelor muncii în mai multe versiuni;
- păstrarea structurii documentului;
– sprijin excelent și recunoaștere a tabelelor.
Contra:
– nu suportă documente și fișiere prea mari (peste 400 dpi);
- nu suportă direct unele tipuri de scanere (bine, nu este înfricoșător, un program special pentru scanare este inclus cu driverele de scanare);
– designul nu strălucește (dar cine are nevoie de el dacă programul rezolvă pe deplin sarcina).
2. Un exemplu de recunoaștere a textului
Vom presupune că ați primit deja imaginile necesare pentru recunoaștere (le-ați scanat acolo sau ați descărcat o carte de pe Internet în format pdf/djvu și ați obținut de la ele imaginile necesare. Cum să faceți acest lucru, vedeți astaarticole).
1) Deschideți imaginea necesară în programul CuineForm (fișier/deschidere sau „Cntrl+O”).
2) Pentru a începe recunoașterea, trebuie mai întâi să selectați diferite zone: text, grafică, tabele etc. În programul Cuneiform, acest lucru se poate face nu numai manual, ci și automat! Pentru a face acest lucru, faceți clic pe butonul „Markup” din panoul superior al ferestrei.
3) După 10-15 secunde. programul va evidenția automat toate zonele cu culori diferite. De exemplu, zona de text este evidențiată în albastru. Apropo, ea a iluminat zona corect și suficient de repede. Sincer să fiu, nu mă așteptam la o reacție atât de rapidă și corectă de la ea...
4) Pentru cei care nu au încredere în marcarea automată, puteți utiliza și marcarea manuală. În acest scop, există o bară de instrumente (vezi imaginea de mai jos), datorită căreia puteți selecta: text, tabele, imagini. Mutați, măriți / micșorați imaginea originală, decupați marginile. Per total, un set bun.
5) După ce toate zonele au fost marcate, puteți trece la recunoaștere. Pentru a face acest lucru, trebuie doar să faceți clic pe butonul cu același nume, ca în imaginea de mai jos.
6) Literal după 10-20 de secunde. se va deschide un document cu text recunoscut în Microsoft Word. Ce este interesant, în textul pentru acest exemplu, desigur, au fost greșeli, dar au fost foarte puține! Cu atât mai mult, ținând cont de cât de neremarcabil a fost materialul sursă - imaginea.
Din punct de vedere al vitezei și calității, este destul de comparabil cu FineReader!
3. Recunoașterea lotului de text
Această funcție a programului poate fi utilă atunci când trebuie să recunoașteți nu o singură imagine, ci mai multe deodată. Comanda rapidă pentru pornirea recunoașterii pachetelor este de obicei ascunsă în meniul „start”.
1) După deschiderea programului, trebuie să creați unul noupachet sau deschideți unul salvat anterior. În exemplul nostru, vom crea unul nou.
2) În pasul următor, îi dăm un nume, de preferință astfel încât, chiar și după șase luni, să ne amintim ce este stocat în el.
3) Apoi, selectați limba documentului (rusă-engleză), indicați dacă există imagini și tabele în materialul scanat.
4) Acum trebuie să specificați folderul în care se află fișierele pentru recunoaștere. Apropo, interesant, programul în sine va găsi toate imaginile și alte fișiere grafice pe care le poate recunoaște și le va adăuga la proiect. Va trebui să le eliminați pe cele suplimentare.
5) Următorul pas nu este important - alegeți ce să faceți cu fișierele sursă după recunoaștere. Recomand să bifați caseta de selectare „Nu face nimic”.
6) Tot ce rămâne este să alegeți formatul în care va fi salvat documentul recunoscut. Există mai multe opțiuni:
– rtf– fișier word, deschis de toate birourile populare (inclusiv cele gratuite, link-uri către programe);
– txt– format text, în el se poate salva doar text, nu sunt permise imaginile și tabelele;
– htm– pagină de hipertext, convenabilă dacă scanați și recunoașteți fișiere pentru site. O vom alege în exemplul nostru.
7) După apăsarea butonului „gata”, va începe procesul de procesare a proiectului dumneavoastră.
Programul funcționează destul de repede. După recunoaștere, o filă cu fișiere htm va apărea în fața ta. Dacă faceți clic pe un astfel de fișier, va fi lansat un browser unde puteți vedea rezultatele. Apropo, pachetul poate fi salvat pentru a lucra în continuare cu el.
9) După cum puteți vedea, rezultateleale lucrării sunt foarte impresionante. Programul a recunoscut cu ușurință imaginea și textul de sub ea. În ciuda faptului că programul este gratuit, este cu adevărat grozav!
4.Concluzii
Dacă nu scanați și nu recunoașteți adesea documente, atunci cumpărarea programului FineReader probabil nu are sens. CuneiForm se ocupă cu ușurință de majoritatea sarcinilor.
Pe de altă parte, are și dezavantaje.
În primul rând, există foarte puține instrumente pentru editarea și verificarea rezultatului obținut. În al doilea rând, când trebuie să recunoașteți multe imagini în FineReader, este mai convenabil să vedeți imediat tot ce a fost adăugat la proiect în coloana din dreapta: ștergeți rapid excesul, faceți corecții etc. Și în al treilea rând, pe documentele deja calitate slabă, CuneiForm pierde în calitatea recunoașterii: trebuie să aduci în minte documentul - editați ferestrele, puneți semne de punctuație, ghilimele etc.
Asta e tot. Cunoașteți vreun alt software decent de recunoaștere a textului gratuit?