Scanare și recunoaștere a textului

Bună ziua.

Probabil, fiecare dintre noi s-a confruntat cu sarcina de a converti un document pe hârtie în formă electronică. Acest lucru este adesea necesar pentru cei care studiază, lucrează cu documentație, traduc texte folosind dicționare electronice etc.

În acest articol, aș dori să împărtășesc câteva elemente de bază ale acestui proces. În general, scanarea și recunoașterea textului necesită destul de mult timp, deoarece majoritatea operațiunilor vor trebui făcute manual. Vom încerca să înțelegem pas cu pas ce, cum și de ce.

Nu toată lumea înțelege imediat un lucru. După scanare (scanarea tuturor literelor de pe scaner), veți avea imagini în format BMP, JPG, PNG, GIF (poate exista și alte formate). Deci, trebuie să obțineți text din această imagine - această procedură se numește recunoaștere. Următoarele vor fi în această ordine.

1) Scanner

Pentru a converti documentele tipărite în text, aveți nevoie de un scaner și, în consecință, de programe și drivere „native” care vin cu acesta. Cu ajutorul lor, veți putea scana documentul și îl veți salva pentru procesare ulterioară.

Puteți folosi și alți analogi, dar software-ul livrat cu scanerul funcționează de obicei mai rapid și are mai multe opțiuni.

În funcție de scanerul pe care îl aveți, viteza de funcționare poate varia semnificativ. Există scanere care pot obține o fotografie dintr-o scrisoare în 10 secunde, există scanere care o vor obține în 30 de secunde. Dacă scanezi o carte de 200-300 de coli, cred că nu este greu de calculat de câte ori va fi diferența de timp?

2) Program de recunoaștere

În articolul nostru, vă voi arăta cum să lucrați în unul dintre cele mai bune programe pentru scanarea și recunoașterea oricăror documente - ABBYY FineReader. Deoarece programul este plătit, voi oferi imediat un link către altul - formularul său analog gratuit Cunei.Adevărat, nu le-aș compara, având în vedere că FineReader câștigă la toți parametrii, recomand să-l încercați.

ABBYY FineReader 11

Site oficial: http://www.abbyy.ru/

Unul dintre cele mai bune programe de acest gen. Este conceput pentru a recunoaște textul de pe o imagine. Sunt încorporate multe opțiuni și funcții. Poate distinge o mulțime de fonturi, acceptă chiar și versiuni scrise de mână (deși nu l-am încercat personal, cred că este puțin probabil să recunoască o versiune scrisă de mână, cu excepția cazului în care aveți o scriere de mână caligrafică perfectă). Mai multe detalii despre lucrul cu acesta vor fi descrise mai jos. Remarcăm aici că articolul va spune despre munca în cea de-a 11-a versiune a programului.

De regulă, diferitele versiuni ale ABBYY FineReader nu diferă mult una de cealaltă. Veți face cu ușurință același lucru în altul. Principalele diferențe pot fi în comoditatea, viteza programului și capacitățile acestuia. De exemplu, versiunile anterioare refuză să deschidă PDF și DJVU...

3) Documente pentru scanare

Da, asta e, am decis să pun documentele într-o rubrică separată. În cele mai multe cazuri, acestea scanează unele manuale, ziare, articole, reviste etc., adică acele cărți și literatură care sunt la cerere. La ce conduc asta? Din experiență personală, pot spune că o mare parte din ceea ce doriți să scanați este probabil deja online! De câte ori am economisit timp personal când am găsit cutare sau cutare carte deja scanată online. Tot ce trebuia să fac a fost să copiez textul într-un document și să continui să lucrez cu el.

Iată un sfat simplu - înainte de a scana ceva, verificați dacă cineva l-a scanat deja și nu trebuie să vă pierdeți timpul.

2. Opțiuni de scanare a textului

Aici nu voi vorbi despre driverele dvs. de scaner, programe, careau mers cu el, pentru că toate modelele de scanere sunt diferite, este, de asemenea, diferit peste tot și este imposibil de ghicit și chiar mai clar să arăți cum se efectuează operația.

Dar toate scanerele au aceleași setări care pot afecta foarte mult viteza și calitatea muncii tale. Despre ele vom vorbi aici. Voi enumera în ordine.

1) Calitate scanare – DPI

Mai întâi, setați calitatea scanării în opțiuni la nu mai puțin de 300 DPI. Este de dorit chiar și să expuneți mai mult, dacă este posibil. Cu cât este mai mare DPI, cu atât imaginea dvs. va fi mai clară și, astfel, cu atât va avea loc procesarea ulterioară mai rapidă. În plus, cu cât calitatea scanării este mai mare, cu atât mai puține erori va trebui să corectați ulterior.

Cea mai bună opțiune oferă de obicei 300-400 DPI.

2) Culoare

Acest parametru afectează foarte mult timpul de scanare (apropo, DPI afectează, dar doar atât de mult, și numai atunci când utilizatorul setează valori mari).

De obicei, se disting trei moduri:

– alb-negru (perfect pentru text simplu);

– gri (potrivit pentru text cu tabele și figuri);

– culoare (pentru reviste color, cărți, în general, documente în care culoarea este importantă).

De obicei, timpul de scanare depinde de selecția culorii. La urma urmei, dacă aveți un document mare, chiar și 5-10 secunde suplimentare pe pagină va dura, în general, un timp decent...

3) Fotografii

Puteți obține documentul nu numai prin scanare, ci și prin fotografierea acestuia. De regulă, în acest caz, veți avea alte probleme: distorsiunea imaginii, încețoșarea. Din acest motiv, poate fi necesară o editare și procesare mai lungă a textului primit. Eu personal nu recomand folosirea camerelor în acest scop.

Este important de menționat că nu toată lumea este așadocumentul va fi recunoscut, deoarece calitatea scanării acestuia poate fi extrem de scăzută...

3. Recunoașterea textului documentului

Vom presupune că ați primit paginile scanate prețuite. Cel mai adesea, acestea sunt în următoarele formate: tif, bmb, jpg, png. În general, nu este foarte important pentru ABBYY FineReader...

După deschiderea unei imagini în ABBYY FineReader, programul, de regulă, începe automat să evidențieze zonele și să le recunoască. Dar uneori o face greșit. Pentru aceasta, vom lua în considerare selectarea manuală a zonelor necesare.

Important! Nu toată lumea înțelege imediat că, după deschiderea unui document în program, documentul sursă este afișat în partea stângă a ferestrei, în care selectați diferite zone. După ce faceți clic pe butonul „recunoaștere”, programul va afișa textul terminat în fereastra din dreapta. După recunoaștere, apropo, este recomandabil să verificați textul pentru erori în același FineReader.

3.1 Text

Această zonă este folosită pentru a selecta text. Figurile și tabelele ar trebui excluse din acesta. Fonturile rare și neobișnuite vor trebui introduse manual...

Pentru a evidenția zona de text, acordați atenție panoului din partea de sus a FineReader. Există un buton „T” (vezi captura de ecran de mai jos, indicatorul mouse-ului este exact pe acest buton). Faceți clic pe el, apoi în imaginea de mai jos selectați o zonă frumos dreptunghiulară în care se află textul. Apropo, în unele cazuri, trebuie să creați 2-3 blocuri de text și uneori 10-12 pe pagină, deoarece formatarea textului poate fi diferită și un dreptunghi nu poate evidenția întreaga zonă.

Este important de reținut că imaginile nu trebuie să intre în zona de text! Acest lucru vă va economisi mult timp mai târziu...

3.2 Imagini

Este folosit pentru a evidenția imaginile și acele zone caregreu de recunoscut din cauza calității proaste sau a fontului neobișnuit.

În captura de ecran de mai jos, cursorul mouse-ului se află pe butonul folosit pentru a selecta zona „imagine”. Apropo, puteți selecta absolut orice parte a paginii în această zonă, iar FineReader o va insera apoi în document ca o imagine obișnuită. Adică, pur și simplu copiază „prostesc”...

De obicei, această zonă este folosită pentru a selecta tabelele scanate prost, pentru a selecta text și font non-standard și imaginile în sine.

3.3 Tabele

Captura de ecran de mai jos arată butonul pentru selectarea tabelelor. În general, personal îl folosesc extrem de rar. Faptul este că va trebui să desenezi în mod obișnuit (de fapt) fiecare linie de pe masă și să arăți ce și cum să programezi. Daca masa este mica si nu este de o calitate foarte buna, recomand sa folositi zona „poza” in aceste scopuri. Acest lucru vă va economisi mult timp și puteți crea rapid un tabel bazat pe o imagine în Word.

3.4 Elemente inutile

Este important de remarcat. Uneori există elemente inutile pe pagină care fac dificilă recunoașterea textului sau nu vă permit deloc să selectați zona dorită. Ele pot fi îndepărtate complet cu ajutorul unei „radiere”.

Pentru a face acest lucru, accesați modul de editare a imaginii.

Selectați instrumentul „eraser” și selectați zona dorită. Va fi șters și în locul lui va fi o foaie de hârtie albă.

Apropo, vă recomand să utilizați această opțiune cât mai des posibil. Încercați să ștergeți toate zonele de text pe care le-ați selectat, unde nu aveți nevoie de o bucată de text sau orice puncte inutile, estompări, distorsiuni sunt prezente cu o radieră. Datorită acestui fapt, procesul de recunoaștere va fi mai rapid!

4. Recunoașterea fișierelor PDF/DJVU

În general, acest format de recunoaștere nu va diferi în niciun fel de altele - adică puteți lucra cu el în același mod ca și cu imaginile. Singurul lucru este că programul nu ar trebui să fie prea vechi, dacă nu deschideți fișiere PDF/DJVU - actualizați versiunea la 11.

Un mic consiliu. După deschiderea unui document FineReader, acesta va începe automat să recunoască documentul. Adesea, în fișierele PDF/DJVU, o anumită zonă a paginii nu este necesară în întregul document! Pentru a elimina o astfel de zonă de pe toate paginile, procedați în felul următor:

1. Accesați secțiunea de editare a imaginilor.

2. Activați opțiunea „decupare”.

3. Evidențiați zona pe care o doriți pe toate paginile.

4. Faceți clic pe aplicați la toate paginile și decupați.

5. Verificarea erorilor și salvarea rezultatelor lucrărilor

S-ar părea că ce alte probleme ar putea fi atunci când toate zonele au fost selectate, apoi recunoscute - luați și păstrați... Nu a fost aici!

În primul rând, este necesară verificarea documentelor!

Pentru a-l porni, după recunoaștere, va exista un buton de „verificare” în fereastra din dreapta, vezi captură de ecran de mai jos. După ce faceți clic pe el, programul FineReader vă va afișa automat acele zone în care programul a întâmpinat erori și nu a putut identifica în mod fiabil un anumit caracter. Tot ce trebuie să faci este să alegi dacă ești de acord cu opinia programului sau să introduci simbolul tău.

Apropo, în aproximativ jumătate din cazuri, programul vă va oferi un cuvânt corect gata făcut - tot ce trebuie să faceți este să selectați opțiunea dorită cu mouse-ul.

În al doilea rând, după verificare, trebuie să alegeți formatul în care veți salva rezultatul muncii dvs.

Aici, FineReader vă permite să completați un cerc: puteți pur și simplu să transferați informații în Word unu-la-unu sau le puteți salva într-una dintrezeci de formate. Dar aș dori să subliniez un alt aspect important. Indiferent de formatul pe care îl alegeți, este important să alegeți tipul de copiere! Să luăm în considerare cele mai interesante opțiuni...

Copie exactă

Toate zonele evidențiate pe pagina din documentul recunoscut vor corespunde exact cu documentul original. O opțiune foarte convenabilă atunci când este important să nu pierdeți formatarea textului. Apropo, fonturile vor fi foarte asemănătoare cu originalul. În acest caz, recomand să transferați documentul în Word pentru a continua lucrările acolo.

Copie editată

Această opțiune este bună deoarece veți obține o versiune deja formatată a textului. Adică nu veți găsi abateri de la „kilometru”, care ar fi putut fi în documentul original. O opțiune utilă atunci când veți edita informații în mod semnificativ.

Adevărat, nu ar trebui să alegeți dacă este important pentru dvs. să păstrați stilul de design, fonturile, indentările. Uneori, dacă recunoașterea nu a avut mare succes, documentul dvs. poate fi denaturat" din cauza formatării modificate. În acest caz, este recomandabil să alegeți o copie exactă.

Text simplu

O opțiune pentru cei care au nevoie doar de textul din pagină fără orice altceva. Potrivit pentru documente fără imagini și tabele.

Aceasta încheie articolul privind scanarea și recunoașterea documentelor. Sper că aceste sfaturi simple vă vor ajuta să vă rezolvați provocările...

Noroc!

Următorul

Ei citesc acum