Cum se face transcrierea computerizata a unui document printat (click pentru marire). |
Despre OCR - recunoasterea optica a caracterelor
Recunoasterea Optica a Caracterelor sau OCR (Optic Character Recognition) reprezinta o tehnologie prin care documente de diferite tipuri care contin text, spre exemplu cele facute cu o camera digitala, scanate de pe documente printate sau salvate in diverse formate grafice, sunt convertite in date editabile care pot fi modificate sau manipulate cu usurinta. Modalitatea prin care se face acest lucru este urmatoarea: documentul este scanat pentru a i se detecta fiecare pixel (unitatea de baza a imaginilor) de informatie, de exemplu pentru un document alb-negru scanat intr-o imagine, un pixel alb inseamna spatiul gol iar un pixel negrul inseamna ca acesta face parte dintr-un caracter.
Un caracter reprezinta o alaturare de pixeli negri (sau similari) care au o anumita forma; algoritmul OCR identifica acea forma si cauta printre sabloanele cu caractere litera care se aseamana geometic cu aceasta. Detectandu-se pe rand forma tututor caracterelor si gasindu-se apoi litera echivalenta in format digital, va rezulta in final documentul digital editabil corespunzator documentului initial.
Transcrierea online a unui document intr-un format digital, care sa permita editarea
Inainte de toate, pentru a se putea efectua transcrierea trebuie ca documentul sa existe deja in format digital, de exemplu document imagine sau PDF needitabil. Daca este vorba de transcrierea unui document printat atunci acesta va trebui initial scanat/ fotografiat si salvat sub forma de imagini, fie prin intermediul unui dispozitiv de tip scanner - existent pe mai toate imprimantele personale, fie cu ajutorul unui aparat de fotografiat - caz in care trebuie sa se tina cont de mai multe aspecte care sa asigure claritatea imaginii (luminozitate, pozitie de fotografiat s.a.).
Odata ce exista stocate pe calculator imaginile ce compun documentul, respectiv documentul intr-un format static, needitabil, de exemplu de tip PDF, atunci se poate incepe transcrierea textului din astfel surse in format editabil, sub diferite formate de document: txt (text), doc(document Word), xls (foi de calcul tabelar).
O solutie la indemana si in acelasi timp gratuita este folosirea unui OCR online. Un site reprezentativ ce furnizeaza servicii de recunoastere optica de caractere este ONLINEOCR.NET.
Acceseaza site-ul www.onlineocr.net si urmeaza pasii:
1. fa upload la document sau la imaginile scanate sau fotografiate (cate una pe rand);
2. selecteaza limba in care este scris texul (este disponibila si limba romana);
3. alege tipul de document in care vrei sa obti documentul echivalent editabil;
4. introdu codul de verificare captcha;
5. incepe transcrierea computerizata apasand "Convert".
Dupa ce texul a fost transcris acesta este afisat, putand fi downloadat pe calculator in formatul specificat; ce poate fi deschis intr-un editor de text iar textului continut i se pot aplica operatii de formatare si modificare.
Daca documentul depaseste 5 Mb sau sunt mai mult de 15 imagini atunci este necesara inregistrarea si apoi aplicarea transcrierii online folosind site-ul. Daca documentul sau un fragment de text din acesta se doreste a fi tradus intr-o alta limba atunci selecteaza si copiaza textul si introdu-l in google translate (mai multe gasesti aici: traducerea de text folosind google translate).