explicatii ocr plus

53
În corespondenta personală rezultă că o parte dintre useri ar dori câteva explicaţii despre cum poate fi folosit AutoCorect OCR_Plus pentru curăţarea OCR-urilor. Încerc să realizez niste tutoriale pe care să le pun pe acest topic. Până voi reuşi să realizez aceste tutoriale, am să încerc să prezint direct pe forum câteva lucruri despre: - rularea automată în meniul OCR_Plus şi setări ce se pot face înainte de rulare; - modul de setare al Punctuaţiei, fereastra pentru OCR_Plus - modul de realizare a dicţionarelor personale de Înlocuiri multiple. Deocamdată am făcut un foarte mic tutorial despre instalarea AutoCorect şi a dicţionarelor ce rulează în AutoCorect OCR_Plus. Nume Tutorial: [AC1] Instalare si reactualizare AutoCorect OCR_Plus.pdf Nume folder:Tutoriale AC OCR_Plus Update: Dicţionare şi documentaţie AutoCorect OCR Plus:[varianta finală – aprilie 2012] pe folderul deschis "Versiune finală - aprilie 2012" la adresa: Mediafire Fişierele sunt organizate în subfoldere cu acces direct de la adresa mediafire de mai sus. Foarte important Să stabilim care este asemănarea şi diferenţa dintre programul AutoCorect STANDARD şi AutoCorect OCR Plus. AutoCorect OCR Plus este practic programul AutoCorect STANDARD la care s-au adăugat următoarele 3 elemente: ■un meniu în plus, numit "OCR Plus"; meniul OCR Plus a fost inserat între meniul "Inserare" şi meniul "Instrumente, astfel că în acest moment ocupă poziţia a patra de la stânga la dreapta. ■o fereastră nouă pentru Setări - Punctuaţie - OCR Plus. Alături de ferestrele"Configurare - Punctuaţie - Document" şi "Configurare - Punctuaţie - Subtitrări" care sunt implementate în AC Standard, a fost creată o nouă fereastră pentru setarea punctuaţiei care rulează în meniul OCR Plus.

Upload: flory1970

Post on 02-Feb-2016

309 views

Category:

Documents


2 download

DESCRIPTION

Explicatii Ocr Plus

TRANSCRIPT

Page 1: Explicatii Ocr Plus

Icircn corespondenta personală rezultă că o parte dintre useri ar dori cacircteva explicaţii despre cum poate fi folosit AutoCorect OCR_Plus pentru curăţarea OCR-urilor

Icircncerc să realizez niste tutoriale pe care să le pun pe acest topic Pacircnă voi reuşi să realizez aceste tutoriale am să icircncerc să prezint direct pe forum cacircteva

lucruri despre- rularea automată icircn meniul OCR_Plus şi setări ce se pot face icircnainte de rulare- modul de setare al Punctuaţiei fereastra pentru OCR_Plus- modul de realizare a dicţionarelor personale de Icircnlocuiri multiple

Deocamdată am făcut un foarte mic tutorial despre instalarea AutoCorect şi a dicţionarelor ce rulează icircn AutoCorect OCR_Plus

Nume Tutorial [AC1] Instalare si reactualizare AutoCorect OCR_PluspdfNume folderTutoriale AC OCR_Plus

Update Dicţionare şi documentaţie AutoCorect OCR Plus[varianta finală ndash aprilie 2012]pe folderul deschis Versiune finală - aprilie 2012 la adresa MediafireFişierele sunt organizate icircn subfoldere cu acces direct de la adresa mediafire de mai sus

Foarte important

Să stabilim care este asemănarea şi diferenţa dintre programul AutoCorect STANDARD şi AutoCorect OCR Plus

AutoCorect OCR Plus este practic programul AutoCorect STANDARD la care s-au adăugat următoarele 3 elemente

un meniu icircn plus numit OCR Plus meniul OCR Plus a fost inserat icircntre meniul Inserare şi meniul Instrumente astfel că icircn acest moment ocupă poziţia a patra de la stacircnga la dreapta

o fereastră nouă pentru Setări - Punctuaţie - OCR Plus Alături de ferestreleConfigurare - Punctuaţie - Document şi Configurare - Punctuaţie - Subtitrări care sunt implementate icircn AC Standard a fost creată o nouă fereastră pentru setarea punctuaţiei care rulează icircn meniul OCR Plus

o comandă rapidă [scurtătură] icircn coloana de comenzi rapide din stacircnga ferestrei principale a programului

Este vorba de ultima comandă rapidă numită OCR aflată pe poziţia 5 Foarte important primele patru comenzi rapide din coloana din stacircnga ferestrei principale nu

trebuie folosite pentru corectarea OCR-urilor Ele sunt comenzi rapide pentru corectarea documentelor standard şi nu a OCR Dacă la programul AutoCorect OCR Plus ignorăm existenţa meniului OCR Plus atunci

icircnseamnă că avem programul AutoCorect STANDARDOpţiunile speciale implementate pentru corectarea fişierelor OCR se pot rula numai din

meniul OCR Plus O rulare automată a meniului OCR Plus se poate face şi acţionacircnd asupra ultimei comenzi rapide aşa cum se vede icircn imaginea de mai sus

Icircnainte de a face prelucrări icircn AutoCorect este necesar să stabilim setările Punctuaţiei Acest lucru se poate face icircnainte de a icircncărca un document icircn AutoCorect dar se poate realiza şi cu un document icircncărcat fără să afecteze aceste setări

Este important de reţinut că setările punctuaţiei [ca de altfel şi setările din meniul OCR_Plus] sunt salvate şi păstrate de către AutoCorect şi după icircnchiderea programului pacircnă la o nouă modificare a setărilor sau la o nouă instalare a AutoCorect

Icircn concluzie aceste setări sunt valabile oricacircnd vom folosi AutoCorect ele se fac o singură dată şi nu la fiecare deschidere a programului

Cum procedăm

După deschiderea programului AutoCorect din meniul principal accesăm opţiunea bdquoInstrumenterdquo mdash gt bdquoConfigurarerdquo ndash ca icircn prima imagine ndash şi se va deschide fereastra bdquoConfigurare ndash Generalrdquo Accesăm tabul-icon bdquoPunctuaţierdquo apoi tabul bdquoOCR Plusrdquo Fereastra bdquoConfigurare ndash Punctuaţie ndash OCR Plusrdquo are icircn acest moment 5 taburi

componente Conversii Punctuaţia de bază Majusculă Diverse Sugestii

Să le discutăm pe racircnd

Conversii Aici nu este mult de discutat Fereastra de setare este mai mult decacirct sugestivă Opţiunea va face conversiile menţionate icircn fereastră Ea trebuie activată icircn mod obligatoriu de către toţi utilizatorii

Punctuaţia de bază

Aici sunt două setări prima este obligatorie şi cea de-a doua se activează icircn funcţie de preferinţele utilizatorului

bdquoAplică principiile de bază ale punctuaţieirdquo trebuie activată icircn mod obligatoriu Ca şi la tabul precedent şi aici sunt menţionate toate modificările pe care le va face

opţiunea Practic opţiunea nu face altceva decacirct să aplice regulile de scriere a semnelor de punctuaţie

şi să adauge sau să şteargă spaţii icircn faţa sau după fiecare semn de punctuaţie aşa cum cer regulile ortografice ale limbii romacircne

bdquoCrează listă de sugestiirdquo Dacă vom activa această setare pe timpul rulării Punctuaţiei programul va crea o listă cu

propuneri de corectare a punctuaţiei această listă cuprinde propuneri ale programului dar a căror rezolvare depinde de utilizator utilizatorul va putea să verifice fiecare propunere şi să accepte sau nu modificarea propusă de program

Dacă utilizatorul va dori să facă doar o curăţare automată a OCR-ului fără alte corecturi atunci nu trebuie activată această setareCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P2

Majusculă Aici este mai mult de discutat Sunt trei situaţii icircn care se face majuscularea La icircnceput de dialog La icircnceput de paragraf La icircnceput de frază Prima setare bdquoMajusculă la icircnceput de dialog [inclusiv dialog cu ghilimele]rdquo trebuie activată icircn mod obligatoriu Rularea opţiunii va corecta toate literele mici la icircnceput de dialog fie el cu ghilimele sau nu Rularea opţiunii nu produce modificări nedorite

Al doilea pachet de opţiuni se referă la corectarea majusculelor la icircnceput de paragraf şi necesită cacircteva explicaţii icircn plus

Mai icircntacirci să definim paragraful Iată o definiţie scurtă din dicţionare paragraful este bdquoPasaj al unei lucrări despărțit de

restul textului printr-un aliniat nou (şi printr-un semn grafic special) fragment (unitar) dintr-un text care cuprinde o anumită idee Fragment mic al unui capitol al unui discurs al unui articol de lege etc cuprins icircntr-un alineatrdquo

Pentru computer pentru editoarele de text paragraful este ceva mai mult de atacirct

Din punct de vedere al logicii editoarelor paragraful cuprinde orice textnontext cuprins icircntre două comenzi bdquoEnterrdquo Pe editor nu-l interesează dacă icircntre cele două comenzi Enter se află un paragraf care are icircnţeles dacă sunt una sau mai multe cifre ori răgălii sau dacă icircntre două Enter nu se află nimic nici măcar un spaţiu Editorul va considera că acela este un paragraf

Acestea fiind spuse să icircncercăm să analizăm imaginea următoare şi să privim atent paragraful care icircncepe la sfacircrşitul paginii 58 şi se termină la icircnceputul paginii 59

Acest paragraf ar fi corect icircn forma următoaremdash Lemn umed ndash răspunse războinicul tot atacirct de calm ca un pedagog care-i face o

demonstraţie aritmetică elevului său icircncurcat Prea mult umezeală prea mult fum prea mult apăhellip fum negru

Ce constatămParagraful real din punct de vedere literar şi a logicii limbajului icircncepe la sfacircrşit de pagină şi

nu icircncape icircn totalitate pe pagina respectivă ci se continuă pe pagina 59 Atenţie la ultimul cuvacircnt scris pe pagina 58 cuvacircntul elevu- este de fapt cuvacircntul elevului despărţit la capăt [sfacircrşit] de racircnd sfacircrşit de racircnd care icircn acest caz corespunde şi cu sfacircrşit de pagină Primul cuvacircnt de pe pagina 59 lui nici nu este un cuvacircnt real ci este secvenţa finală a cuvacircntul elevului

Să privim mai departe cele două părţi ale paragrafului real sunt despărţite de 4 bdquoparagrafe digitalerdquo

ndash paragraf 1 ndash nota de subsol bdquo1 Colibă de piei-roşiirdquo ndash cu font roşu icircn imaginendash paragraf 2 ndash nota de subsol bdquo2 Oameni albirdquo ndash cu font roşu icircn imagine ndash paragraf 3 ndash număr de pagină ndash numărul 58 ndash pe fundal bleundash paragraf 4 ndash paragraf [racircnd] gol marcat cu | Din păcate calculatorul a majusculat secvenţa de cuvacircnt lui cu care icircncepe pagina

transformacircnd-o icircn cuvacircntul Lui calculatorul consideracircnd că e vorba de un paragraf nou

Acum să icircncercăm să definim bdquoParagraful Icircntregrdquo şi bdquoParagraful Icircntreruptrdquo icircn sensul folosit la aceste setări

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 2: Explicatii Ocr Plus

Este important de reţinut că setările punctuaţiei [ca de altfel şi setările din meniul OCR_Plus] sunt salvate şi păstrate de către AutoCorect şi după icircnchiderea programului pacircnă la o nouă modificare a setărilor sau la o nouă instalare a AutoCorect

Icircn concluzie aceste setări sunt valabile oricacircnd vom folosi AutoCorect ele se fac o singură dată şi nu la fiecare deschidere a programului

Cum procedăm

După deschiderea programului AutoCorect din meniul principal accesăm opţiunea bdquoInstrumenterdquo mdash gt bdquoConfigurarerdquo ndash ca icircn prima imagine ndash şi se va deschide fereastra bdquoConfigurare ndash Generalrdquo Accesăm tabul-icon bdquoPunctuaţierdquo apoi tabul bdquoOCR Plusrdquo Fereastra bdquoConfigurare ndash Punctuaţie ndash OCR Plusrdquo are icircn acest moment 5 taburi

componente Conversii Punctuaţia de bază Majusculă Diverse Sugestii

Să le discutăm pe racircnd

Conversii Aici nu este mult de discutat Fereastra de setare este mai mult decacirct sugestivă Opţiunea va face conversiile menţionate icircn fereastră Ea trebuie activată icircn mod obligatoriu de către toţi utilizatorii

Punctuaţia de bază

Aici sunt două setări prima este obligatorie şi cea de-a doua se activează icircn funcţie de preferinţele utilizatorului

bdquoAplică principiile de bază ale punctuaţieirdquo trebuie activată icircn mod obligatoriu Ca şi la tabul precedent şi aici sunt menţionate toate modificările pe care le va face

opţiunea Practic opţiunea nu face altceva decacirct să aplice regulile de scriere a semnelor de punctuaţie

şi să adauge sau să şteargă spaţii icircn faţa sau după fiecare semn de punctuaţie aşa cum cer regulile ortografice ale limbii romacircne

bdquoCrează listă de sugestiirdquo Dacă vom activa această setare pe timpul rulării Punctuaţiei programul va crea o listă cu

propuneri de corectare a punctuaţiei această listă cuprinde propuneri ale programului dar a căror rezolvare depinde de utilizator utilizatorul va putea să verifice fiecare propunere şi să accepte sau nu modificarea propusă de program

Dacă utilizatorul va dori să facă doar o curăţare automată a OCR-ului fără alte corecturi atunci nu trebuie activată această setareCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P2

Majusculă Aici este mai mult de discutat Sunt trei situaţii icircn care se face majuscularea La icircnceput de dialog La icircnceput de paragraf La icircnceput de frază Prima setare bdquoMajusculă la icircnceput de dialog [inclusiv dialog cu ghilimele]rdquo trebuie activată icircn mod obligatoriu Rularea opţiunii va corecta toate literele mici la icircnceput de dialog fie el cu ghilimele sau nu Rularea opţiunii nu produce modificări nedorite

Al doilea pachet de opţiuni se referă la corectarea majusculelor la icircnceput de paragraf şi necesită cacircteva explicaţii icircn plus

Mai icircntacirci să definim paragraful Iată o definiţie scurtă din dicţionare paragraful este bdquoPasaj al unei lucrări despărțit de

restul textului printr-un aliniat nou (şi printr-un semn grafic special) fragment (unitar) dintr-un text care cuprinde o anumită idee Fragment mic al unui capitol al unui discurs al unui articol de lege etc cuprins icircntr-un alineatrdquo

Pentru computer pentru editoarele de text paragraful este ceva mai mult de atacirct

Din punct de vedere al logicii editoarelor paragraful cuprinde orice textnontext cuprins icircntre două comenzi bdquoEnterrdquo Pe editor nu-l interesează dacă icircntre cele două comenzi Enter se află un paragraf care are icircnţeles dacă sunt una sau mai multe cifre ori răgălii sau dacă icircntre două Enter nu se află nimic nici măcar un spaţiu Editorul va considera că acela este un paragraf

Acestea fiind spuse să icircncercăm să analizăm imaginea următoare şi să privim atent paragraful care icircncepe la sfacircrşitul paginii 58 şi se termină la icircnceputul paginii 59

Acest paragraf ar fi corect icircn forma următoaremdash Lemn umed ndash răspunse războinicul tot atacirct de calm ca un pedagog care-i face o

demonstraţie aritmetică elevului său icircncurcat Prea mult umezeală prea mult fum prea mult apăhellip fum negru

Ce constatămParagraful real din punct de vedere literar şi a logicii limbajului icircncepe la sfacircrşit de pagină şi

nu icircncape icircn totalitate pe pagina respectivă ci se continuă pe pagina 59 Atenţie la ultimul cuvacircnt scris pe pagina 58 cuvacircntul elevu- este de fapt cuvacircntul elevului despărţit la capăt [sfacircrşit] de racircnd sfacircrşit de racircnd care icircn acest caz corespunde şi cu sfacircrşit de pagină Primul cuvacircnt de pe pagina 59 lui nici nu este un cuvacircnt real ci este secvenţa finală a cuvacircntul elevului

Să privim mai departe cele două părţi ale paragrafului real sunt despărţite de 4 bdquoparagrafe digitalerdquo

ndash paragraf 1 ndash nota de subsol bdquo1 Colibă de piei-roşiirdquo ndash cu font roşu icircn imaginendash paragraf 2 ndash nota de subsol bdquo2 Oameni albirdquo ndash cu font roşu icircn imagine ndash paragraf 3 ndash număr de pagină ndash numărul 58 ndash pe fundal bleundash paragraf 4 ndash paragraf [racircnd] gol marcat cu | Din păcate calculatorul a majusculat secvenţa de cuvacircnt lui cu care icircncepe pagina

transformacircnd-o icircn cuvacircntul Lui calculatorul consideracircnd că e vorba de un paragraf nou

Acum să icircncercăm să definim bdquoParagraful Icircntregrdquo şi bdquoParagraful Icircntreruptrdquo icircn sensul folosit la aceste setări

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 3: Explicatii Ocr Plus

După deschiderea programului AutoCorect din meniul principal accesăm opţiunea bdquoInstrumenterdquo mdash gt bdquoConfigurarerdquo ndash ca icircn prima imagine ndash şi se va deschide fereastra bdquoConfigurare ndash Generalrdquo Accesăm tabul-icon bdquoPunctuaţierdquo apoi tabul bdquoOCR Plusrdquo Fereastra bdquoConfigurare ndash Punctuaţie ndash OCR Plusrdquo are icircn acest moment 5 taburi

componente Conversii Punctuaţia de bază Majusculă Diverse Sugestii

Să le discutăm pe racircnd

Conversii Aici nu este mult de discutat Fereastra de setare este mai mult decacirct sugestivă Opţiunea va face conversiile menţionate icircn fereastră Ea trebuie activată icircn mod obligatoriu de către toţi utilizatorii

Punctuaţia de bază

Aici sunt două setări prima este obligatorie şi cea de-a doua se activează icircn funcţie de preferinţele utilizatorului

bdquoAplică principiile de bază ale punctuaţieirdquo trebuie activată icircn mod obligatoriu Ca şi la tabul precedent şi aici sunt menţionate toate modificările pe care le va face

opţiunea Practic opţiunea nu face altceva decacirct să aplice regulile de scriere a semnelor de punctuaţie

şi să adauge sau să şteargă spaţii icircn faţa sau după fiecare semn de punctuaţie aşa cum cer regulile ortografice ale limbii romacircne

bdquoCrează listă de sugestiirdquo Dacă vom activa această setare pe timpul rulării Punctuaţiei programul va crea o listă cu

propuneri de corectare a punctuaţiei această listă cuprinde propuneri ale programului dar a căror rezolvare depinde de utilizator utilizatorul va putea să verifice fiecare propunere şi să accepte sau nu modificarea propusă de program

Dacă utilizatorul va dori să facă doar o curăţare automată a OCR-ului fără alte corecturi atunci nu trebuie activată această setareCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P2

Majusculă Aici este mai mult de discutat Sunt trei situaţii icircn care se face majuscularea La icircnceput de dialog La icircnceput de paragraf La icircnceput de frază Prima setare bdquoMajusculă la icircnceput de dialog [inclusiv dialog cu ghilimele]rdquo trebuie activată icircn mod obligatoriu Rularea opţiunii va corecta toate literele mici la icircnceput de dialog fie el cu ghilimele sau nu Rularea opţiunii nu produce modificări nedorite

Al doilea pachet de opţiuni se referă la corectarea majusculelor la icircnceput de paragraf şi necesită cacircteva explicaţii icircn plus

Mai icircntacirci să definim paragraful Iată o definiţie scurtă din dicţionare paragraful este bdquoPasaj al unei lucrări despărțit de

restul textului printr-un aliniat nou (şi printr-un semn grafic special) fragment (unitar) dintr-un text care cuprinde o anumită idee Fragment mic al unui capitol al unui discurs al unui articol de lege etc cuprins icircntr-un alineatrdquo

Pentru computer pentru editoarele de text paragraful este ceva mai mult de atacirct

Din punct de vedere al logicii editoarelor paragraful cuprinde orice textnontext cuprins icircntre două comenzi bdquoEnterrdquo Pe editor nu-l interesează dacă icircntre cele două comenzi Enter se află un paragraf care are icircnţeles dacă sunt una sau mai multe cifre ori răgălii sau dacă icircntre două Enter nu se află nimic nici măcar un spaţiu Editorul va considera că acela este un paragraf

Acestea fiind spuse să icircncercăm să analizăm imaginea următoare şi să privim atent paragraful care icircncepe la sfacircrşitul paginii 58 şi se termină la icircnceputul paginii 59

Acest paragraf ar fi corect icircn forma următoaremdash Lemn umed ndash răspunse războinicul tot atacirct de calm ca un pedagog care-i face o

demonstraţie aritmetică elevului său icircncurcat Prea mult umezeală prea mult fum prea mult apăhellip fum negru

Ce constatămParagraful real din punct de vedere literar şi a logicii limbajului icircncepe la sfacircrşit de pagină şi

nu icircncape icircn totalitate pe pagina respectivă ci se continuă pe pagina 59 Atenţie la ultimul cuvacircnt scris pe pagina 58 cuvacircntul elevu- este de fapt cuvacircntul elevului despărţit la capăt [sfacircrşit] de racircnd sfacircrşit de racircnd care icircn acest caz corespunde şi cu sfacircrşit de pagină Primul cuvacircnt de pe pagina 59 lui nici nu este un cuvacircnt real ci este secvenţa finală a cuvacircntul elevului

Să privim mai departe cele două părţi ale paragrafului real sunt despărţite de 4 bdquoparagrafe digitalerdquo

ndash paragraf 1 ndash nota de subsol bdquo1 Colibă de piei-roşiirdquo ndash cu font roşu icircn imaginendash paragraf 2 ndash nota de subsol bdquo2 Oameni albirdquo ndash cu font roşu icircn imagine ndash paragraf 3 ndash număr de pagină ndash numărul 58 ndash pe fundal bleundash paragraf 4 ndash paragraf [racircnd] gol marcat cu | Din păcate calculatorul a majusculat secvenţa de cuvacircnt lui cu care icircncepe pagina

transformacircnd-o icircn cuvacircntul Lui calculatorul consideracircnd că e vorba de un paragraf nou

Acum să icircncercăm să definim bdquoParagraful Icircntregrdquo şi bdquoParagraful Icircntreruptrdquo icircn sensul folosit la aceste setări

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 4: Explicatii Ocr Plus

Aici sunt două setări prima este obligatorie şi cea de-a doua se activează icircn funcţie de preferinţele utilizatorului

bdquoAplică principiile de bază ale punctuaţieirdquo trebuie activată icircn mod obligatoriu Ca şi la tabul precedent şi aici sunt menţionate toate modificările pe care le va face

opţiunea Practic opţiunea nu face altceva decacirct să aplice regulile de scriere a semnelor de punctuaţie

şi să adauge sau să şteargă spaţii icircn faţa sau după fiecare semn de punctuaţie aşa cum cer regulile ortografice ale limbii romacircne

bdquoCrează listă de sugestiirdquo Dacă vom activa această setare pe timpul rulării Punctuaţiei programul va crea o listă cu

propuneri de corectare a punctuaţiei această listă cuprinde propuneri ale programului dar a căror rezolvare depinde de utilizator utilizatorul va putea să verifice fiecare propunere şi să accepte sau nu modificarea propusă de program

Dacă utilizatorul va dori să facă doar o curăţare automată a OCR-ului fără alte corecturi atunci nu trebuie activată această setareCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P2

Majusculă Aici este mai mult de discutat Sunt trei situaţii icircn care se face majuscularea La icircnceput de dialog La icircnceput de paragraf La icircnceput de frază Prima setare bdquoMajusculă la icircnceput de dialog [inclusiv dialog cu ghilimele]rdquo trebuie activată icircn mod obligatoriu Rularea opţiunii va corecta toate literele mici la icircnceput de dialog fie el cu ghilimele sau nu Rularea opţiunii nu produce modificări nedorite

Al doilea pachet de opţiuni se referă la corectarea majusculelor la icircnceput de paragraf şi necesită cacircteva explicaţii icircn plus

Mai icircntacirci să definim paragraful Iată o definiţie scurtă din dicţionare paragraful este bdquoPasaj al unei lucrări despărțit de

restul textului printr-un aliniat nou (şi printr-un semn grafic special) fragment (unitar) dintr-un text care cuprinde o anumită idee Fragment mic al unui capitol al unui discurs al unui articol de lege etc cuprins icircntr-un alineatrdquo

Pentru computer pentru editoarele de text paragraful este ceva mai mult de atacirct

Din punct de vedere al logicii editoarelor paragraful cuprinde orice textnontext cuprins icircntre două comenzi bdquoEnterrdquo Pe editor nu-l interesează dacă icircntre cele două comenzi Enter se află un paragraf care are icircnţeles dacă sunt una sau mai multe cifre ori răgălii sau dacă icircntre două Enter nu se află nimic nici măcar un spaţiu Editorul va considera că acela este un paragraf

Acestea fiind spuse să icircncercăm să analizăm imaginea următoare şi să privim atent paragraful care icircncepe la sfacircrşitul paginii 58 şi se termină la icircnceputul paginii 59

Acest paragraf ar fi corect icircn forma următoaremdash Lemn umed ndash răspunse războinicul tot atacirct de calm ca un pedagog care-i face o

demonstraţie aritmetică elevului său icircncurcat Prea mult umezeală prea mult fum prea mult apăhellip fum negru

Ce constatămParagraful real din punct de vedere literar şi a logicii limbajului icircncepe la sfacircrşit de pagină şi

nu icircncape icircn totalitate pe pagina respectivă ci se continuă pe pagina 59 Atenţie la ultimul cuvacircnt scris pe pagina 58 cuvacircntul elevu- este de fapt cuvacircntul elevului despărţit la capăt [sfacircrşit] de racircnd sfacircrşit de racircnd care icircn acest caz corespunde şi cu sfacircrşit de pagină Primul cuvacircnt de pe pagina 59 lui nici nu este un cuvacircnt real ci este secvenţa finală a cuvacircntul elevului

Să privim mai departe cele două părţi ale paragrafului real sunt despărţite de 4 bdquoparagrafe digitalerdquo

ndash paragraf 1 ndash nota de subsol bdquo1 Colibă de piei-roşiirdquo ndash cu font roşu icircn imaginendash paragraf 2 ndash nota de subsol bdquo2 Oameni albirdquo ndash cu font roşu icircn imagine ndash paragraf 3 ndash număr de pagină ndash numărul 58 ndash pe fundal bleundash paragraf 4 ndash paragraf [racircnd] gol marcat cu | Din păcate calculatorul a majusculat secvenţa de cuvacircnt lui cu care icircncepe pagina

transformacircnd-o icircn cuvacircntul Lui calculatorul consideracircnd că e vorba de un paragraf nou

Acum să icircncercăm să definim bdquoParagraful Icircntregrdquo şi bdquoParagraful Icircntreruptrdquo icircn sensul folosit la aceste setări

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 5: Explicatii Ocr Plus

Din punct de vedere al logicii editoarelor paragraful cuprinde orice textnontext cuprins icircntre două comenzi bdquoEnterrdquo Pe editor nu-l interesează dacă icircntre cele două comenzi Enter se află un paragraf care are icircnţeles dacă sunt una sau mai multe cifre ori răgălii sau dacă icircntre două Enter nu se află nimic nici măcar un spaţiu Editorul va considera că acela este un paragraf

Acestea fiind spuse să icircncercăm să analizăm imaginea următoare şi să privim atent paragraful care icircncepe la sfacircrşitul paginii 58 şi se termină la icircnceputul paginii 59

Acest paragraf ar fi corect icircn forma următoaremdash Lemn umed ndash răspunse războinicul tot atacirct de calm ca un pedagog care-i face o

demonstraţie aritmetică elevului său icircncurcat Prea mult umezeală prea mult fum prea mult apăhellip fum negru

Ce constatămParagraful real din punct de vedere literar şi a logicii limbajului icircncepe la sfacircrşit de pagină şi

nu icircncape icircn totalitate pe pagina respectivă ci se continuă pe pagina 59 Atenţie la ultimul cuvacircnt scris pe pagina 58 cuvacircntul elevu- este de fapt cuvacircntul elevului despărţit la capăt [sfacircrşit] de racircnd sfacircrşit de racircnd care icircn acest caz corespunde şi cu sfacircrşit de pagină Primul cuvacircnt de pe pagina 59 lui nici nu este un cuvacircnt real ci este secvenţa finală a cuvacircntul elevului

Să privim mai departe cele două părţi ale paragrafului real sunt despărţite de 4 bdquoparagrafe digitalerdquo

ndash paragraf 1 ndash nota de subsol bdquo1 Colibă de piei-roşiirdquo ndash cu font roşu icircn imaginendash paragraf 2 ndash nota de subsol bdquo2 Oameni albirdquo ndash cu font roşu icircn imagine ndash paragraf 3 ndash număr de pagină ndash numărul 58 ndash pe fundal bleundash paragraf 4 ndash paragraf [racircnd] gol marcat cu | Din păcate calculatorul a majusculat secvenţa de cuvacircnt lui cu care icircncepe pagina

transformacircnd-o icircn cuvacircntul Lui calculatorul consideracircnd că e vorba de un paragraf nou

Acum să icircncercăm să definim bdquoParagraful Icircntregrdquo şi bdquoParagraful Icircntreruptrdquo icircn sensul folosit la aceste setări

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 6: Explicatii Ocr Plus

bdquoParagraful Icircntregrdquo este un paragraf normal un paragraf obişnuit aşa cum este definit icircn dicţionare care urmează după un paragraf format din caractere de tip literă mai lung de 7 caractere şi care se termină cu semne de punctuaţie corecte

bdquoParagraful Icircntreruptrdquo este acel paragraf care urmează după un paragraf gol [deci un racircnd gol] sau după un paragraf care conţine numai cifre [cum ar fi cazul numerelor de pagină]

Icircn sfacircrşit acum revenim la setările privind majuscularea paragrafelor Subliniez că din cele 3 setări posibile ale majusculării paragrafului se poate activa doar

UNA SINGURĂ la alegere Să le analizăm pe racircnd

bdquoMajusculă la icircnceput de paragraf ndash [orice literă ndash orice paragraf]rdquo Această opţiune va majuscula orice literă la toate paragrafele indiferent dacă ele urmează

după un paragraf normal ori după unul gol sau după unul format din cifre dacă este un bdquoParagraf Icircntregrdquo sau un bdquoParagraf Icircntreruptrdquo

Atenţie Activacircnd această opţiune se vor majuscula şi paragrafele care icircncep la sfacircrşit de pagină şi se continuă la icircnceputul paginii următoare fiind icircntrerupt de racircndul gol dintre pagini sau de numărul de pagină aşa cum s-a icircntacircmplat icircn exemplul din imaginea de mai sus

Recomand ca această opţiune să fie activată doar icircn cazurile icircn care utilizatorul nu a păstrat [sau a şters] numerele de pagină şi nici nu are marcată trecerea de la o pagină la alta cu racircnd gol şi de asemenea a corectat despărţirea paragrafelor cu opţiunea bdquo15 Repararea racircndurilor rupterdquo

bdquoMajusculă la icircnceput de paragraf [numai paragraf icircntreg]rdquo Această setare va permite ca majuscularea să se facă la toate literele cu care icircncep

paragrafele dar doar la paragrafele care bdquocurgrdquo unul după altul la paragrafele icircntregi Efectul secundar al opţiunii este acela că dacă icircntre titlul capitolului şi primul paragraf aven un racircnd gol programul nu va majuscula acest paragraf

Recomand activarea acestei opţiuni

bdquoMajusculă la icircnceput de paragraf [numai litera Icirc paragraf icircntreg]rdquo Această setare va permite doar majuscularea literei icirc mdash gt Icirc şi numai icircn cazul paragrafelor

icircntregi Practic aceasta seamănă cu setarea a doua doar că nu caută toate literele mici la icircnceput de paragraf icircntreg ci doar litera icirc

Notă icircn general Abbyy face puţine confuzii icircntre literele mici şi literele mari fapt pentru care nu sunt multe cazuri de icircnceput de paragraf care vor fi scrise cu litere mici mai ales dacă s-a făcut un antrenament suficient al Abbyy cu caracterele [adică minim 5-6 pagini]

Singura problemă majoră a lui Abbyy este aceea că nu recunoaşte niciodată pentru limba romacircnă litera Icirc [Icirc majusculă] ci o va scrie totdeauna cu icirc [icirc minusculă] Practic aceasta problema lui icirc este principala problemă de rezolvat la majusculare

Avantajul setării acesteia faţă de setarea a doua este că majuscularea va rula mai repede avacircnd mai puţine căutări de realizat dezavantajul este că pot exista şi alte litere scrise cu minusculă la icircnceput de paragraf pe care programul nu le va corecta Icircn funcţie de aspectul textului utilizatorul ca avea posibilitatea să aleagă icircntre setarea 2 sau 3 ori chiar setarea 1

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 7: Explicatii Ocr Plus

Tot la tabul Majusculă mai sunt de discutat setările care se referă la Majusculă la icircnceput de frază

Redau icircn imaginea de mai jos un fragment din fereastra se setare spre a reaminti cum arată aceste setări

Prima setare bdquoMajusculă la icircnceput de frază ndash doar după punct urmat de spaţiurdquo este setarea pe care o recomand Rularea opţiunii de majusculare astfel setată nu va face erori de majusculare [nu va majuscula şi acolo unde nu trebuie] decacirct icircn situaţia icircn care Abbyy a pus icircn mod eronat un punct icircn locul unei virgule Subliniez că punctele de suspensie icircn acest moment sunt deja convertite icircn Elipsis astfel că opţiunea nu va majuscula propoziţiile care icircncep după puncte de suspensie

Avantaje şi dezavantaje ale setării Rularea punctuaţiei astfel setate nu va produce erori de majusculare icircn plus adică nu va majuscula situaţii icircn care trebuie păstrată minuscula Dezavantajul este că pot rămacircne icircnceputuri de frază care urmează după şi elipsis ce vor trebui corectate manual

Cea de-a doua setare bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo are dezavantajul că poate face majusculări icircn plus faţă de situaţiile corecte Această opţiune va face majuscularea cazurilor de dialog francez astfel că dacă va fi activată icircn mod obligatoriu este necesară şi cea de-a treia opţiune de la tabul bdquoSugestiirdquo sau opţiunea specială din meniul OCR_Plus bdquo45 Convertire majusculă icircn minusculă icircn dialog francezrdquo

Niciuna dintre cele două setări nu este perfectă fiecare dintre ele are avantaje şi dezavantaje

Personal prefer prima opţiune pentru simplul motiv că aşa m-am obişnuit să lucrezCONFIGURARE PUNCTUAŢIE OCR_Plus - continuare - P3

Diverse Cred că numele acestor setări sunt suficient de sugestive şi nu mai necesită explicaţii Recomand activarea tuturor setărilor

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 8: Explicatii Ocr Plus

Sugestii

Pentru că personal nu am folosit aceste sugestii am nevoie de un pic de timp pentru documentarea privind setarea Sugerează tipul corect de liniuţă

Setarea a doua nu cred că necesită explicaţii fiind suficient de sugestivă Cea de-a treia setare privind dialogul francez se activează după cum am mai spus doar

dacă se activează opţiunea bdquoMajusculă la icircnceput de frază ndash după şi urmat de spaţiurdquo Aceste două setări şi opţiuni funcţionează icircn pereche ori activate ambele ori dezactivate

Cred că cele de mai sus sunt suficient de detaliate ori poate enervant de detaliate Dacă a fost mai greu la citit icircmi cer scuze dar să ştiţi că nici la scris n-a fost foarte uşor

Probleme constatate de useri la rularea Meniului OCR_Plus

cind rules functiile de la OCR plus imi spune ca nu poate deschide urmatoarele dictionare CO_DE L1 S1 Midp Dlp Df Am verificat si dictionarele sint la locul lor

Mai icircntacirci trebuie stabilit dacă rulează vreunul dintre dicţionare dacă nu rulează niciunul atunci pot fi următoarele cauze

- dicţionarele nu au fost instalate icircn folderul corect- dicţionarele nu au numele reactualizate şi rulează dicţionare cu nume vechi Dicţionarelor

iniţiale au fost redenumite adăugacircndu-se la toate dicţionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic E bine de verificat pe baza anexelor Tutorialului din prima postare

Părerea mea este că e posibil să avem o problemă cu calea de căutare a dicţionarelor

Foarte important Există icircn computer două foldere numite Dictionare Nu trebuie făcută confuzie icircntre ele

Unul dintre ele se găseşte icircn Program Files unde AutoCorect se instalează bdquoCProgram FilesAutoCorect DictionarerdquoIcircn acest folder Dictionare AutoCorect icircşi instalează dictionarele sale de limba romacircnă

necesare funcţionării Aceste dicţionare n-au nicio legătură cu cele ce rulează icircn Meniul OCR_Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 9: Explicatii Ocr Plus

Mai există un folder Dictionare si este cel care ne interesează si pe care Autoorect icircl crează la prima lui rulare

Acest al doilea folder cel ce ne interesează are următoarea locaţie

icircn Windows XP bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Clasic

Dictionarerdquo ndash pentru versiunea AutoCorect ClasicSau bdquoCDocuments and SettingsNUME_USERApplication DataAutoCorect Contemporan

Dictionarerdquo ndash pt versiunea AutoCorect Contemporan

icircn Windows 7 Windows Vista bdquoCUsersNUME_USERAppDataRoamingAutoCorect Clasic Dictionarerdquo ndash pentru

versiunea AutoCorect ClasicSau bdquoCUsersNUME_USERAppDataRoamingAutoCorect Contemporan Dictionarerdquo ndash

pentru versiunea AutoCorect ContemporanIcircn aceste foldere numite Dictionare se crează folderul OCR_DIC şi aici se copiază

dicţionarele ce rulează cu Meniul OCR_Plus

2002 - 2012 = 10 ani

10 ani din viaţa mea pentru AutoCorect pentru a fi ce este acum pentru un start un colac de salvare ce va salva pe ici pe colo pe unu şi pe altul

Acum eu renunţ complet la ce icircnseamnă AutoCorect las moştenire tot ce icircnseamnă AutoCorect colaboratorului şi prietenului meu Cosmin Ciuperca cu care am petrecut momente deosebite dezvoltacircnd aplicaţia mai sus menţionată chiar dacă nu ne-am icircntacirclnit niciodată face-to-face

Doresc şi voi trece icircn uitare aşa cum am icircnceput dezvoltarea AC icircn linişte fără susţinători

Succes icircn continuare Cosmin de acum tot greul va fi pe umerii tăiSună ciudat dar icircmi este inima grea simt că mă despart de ceva drag cu bine tuturor

Daniel Morlova

Dragă Daniel

Nu ştiu exact cacircnd am descoperit AutoCorect dar ştiu sigur că din vara anului 2009 am icircnceput să-i folosesc frecvent opţiunea de icircnlocuri multiple Cred că era vorba de AutoCorect 23

E adevărat că se putea rula doar dicţionarul bdquoimplicitdicrdquo dar am făcut mai multe dicţionare icircn Notepad le-am ordonat icircnregistrările icircn ordine alfabetică şi le rulam prin redenumire şi copiere icircn folderul principal Atunci am realizat cacirct de important era programul icircn corectura preliminară a OCR-urilor

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 10: Explicatii Ocr Plus

Mai tacircrziu cacircnd a apărut AutoCorect 33 am fost un pic descumpănit Dicţionarele primiseră extensia bdquoimdrdquo şi nu mai puteam să le editez icircn Notepad ci doar icircn AutoCorect ceea ce era un pic mai dificil dar am descoperit că acum se puteau salva un număr infinit de dicţionare iar rularea lor era mult mai uşoară Programul era deja foarte puternic

Pe această secţiune a fost creat un topic special dedicat cunoaşterii şi folosirii AutoCorect topic ce a făcut cunoscut programul şi altor useri ce se ocupau cu digitalizarea cărţilor

Deşi nu-i văzusem niciodată icircn viaţa mea şi nu credeam că aş putea vreodată schimba un singur cuvacircnt ştiam exact cine sunt Daniel Morlova şi Cosmin Ciupercă Erau doi oameni care-şi foloseau cunoştinţele şi timpul lor pentru a oferi altora un instrument foarte util Şi mai ales icircntr-o ţară icircn care se vinde sau se fură orice ei ofereau totul fără să primească nimic Poate din cacircnd icircn cacircnd cacircte o mulţumire Da cred că la momentul icircn care am icircnceput eu să folosesc AutoCorect e posibil să fi funcţionat şi forumul de pe Softsethellip Sunt aproape sigur că undeva am văzut nişte mulţumiri ale utilizatorilor de AutoCorect

Poate că există mai mult ca sigur că există mai multe programe romacircneşti free şi mulţi programatori demni de respect Eu nu am avut onoarea să-i cunosc pe aceea dar icirci bdquoştiamrdquo sigur pe cei doi care făcuseră AutoCorect şi nu numai AutoCorect Şi atunci ca şi acum mi s-a părut a fi cel mai important lucru să oferi ceva necunoscuţilor din jurul tău fără să ceri ceva icircn schimb

Cacircnd aţi apărut pe forum pe această secţiune mai puţin cunoscută de către useri [pentru că e o secţiune pe care o vizitează oamenii doar atunci cacircnd caută o lămurire iar cei mai mulţi nici nu ştiu că există] am fost pur şi simplu emoţionat Nu m-am gacircndit niciodată că AutoCorect ar putea să ajungă ceea ce este astăzi AutoCorect OCR_Plus

M-am gacircndit că se mai pot face ceva icircmbunătăţiri mi se părea că Menssana vă cere prea mult şi la icircnceput m-am şi opus la prea multe schimbări dar mai apoi cacircnd aţi implementat noul meniu bdquoOCR_Plusrdquo am icircncercat să ajut cacirct pothellip

Ideea este că nu mă pricep la prea multe [habar n-am de programare sau limba engleză şi sunt la vacircrsta la care oamenii uită din ce icircn ce mai mult din ceea ce odată au ştiut aşa că nu prea mai am timp să mă apuc de icircnvăţat] deci nepricepacircndu-mă la altceva am făcut ceea ce face tot romacircnul mi-am dat cu părerea am chibiţat pe lacircngăhellip şi e adevărathellip am bibilit cacircteva dicţionare

Icircn acest moment eram foarte mulţumit Un timp mă ofticaseră ruşii şi chinezii dar nu numai ei că realizaseră programe speciale pentru digitalizarea cărţilorhellip

Dacă ruşii au Scan Tailor sau ScanKromsator dacă chinezii au DjVuToyhellip acum pot spune cu macircndrie că şi noi romacircnii avem un program special pentru digitalizare AutoCorect OCR_Plus şi asta e opera voastră Daniel Morlova şi Cosmin Ciupercă

Mie mi-au trebui şapte ani să descopăr AutoCorecthellip Nu ştiu cacirct timp va trece pacircnă ce foarte mulţi utilizatori vor privi AutoCorect ca pe un instrument indispensabil pentru digitalizare dar sigur este că va veni momentul cacircnd oamenii vor reuşi să aprecieze la valoarea sa reală AutoCorect OCR_Plus

Şi că vremhellip sau că nu vrem AutoCorect icircnseamnă Daniel Morlova şi Cosmin Ciupercă şi aşa va fi totdeauna

Am fost onorat să chibiţez pe lacircngă o asemenea echipă şi vă mulţumesc pentru toată munca voastră

Cu stimă şi respect Seven

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 11: Explicatii Ocr Plus

RULAREA AUTOMATĂ A MENIULUI OCR_Plus

GENERALITĂŢI

Icircmi cer scuze dacă vor fi prea multe postăriDeoarece este foarte dificilă editarea şi reeditarea icircn postări lungi am ales varianta ca fiecare

pachet de opţiuni să fie tratat icircn cacircte o postare separatăVa dura o perioadă pacircnă ce toate postările vor fi complete Mai icircntacirci voi insera imaginile

necesare şi apoi vor fi adăugate explicaţii astfel că la un moment dat vor fi editate mai multe postări dar făcă ca vreuna dintre ele să fie completă

Meniul este destul de complex şi o discuţie despre rularea lui este dificil de abordat Am ales varianta icircn care să prezentăm mai icircntacirci fiecare pachet de opţiuni icircn parte deoarece rularea cronologică mi se pare mai dificil de explicat

Mai icircntacirci să stabilim cacircteva aspecte

a Programul AutoCorect OCR_Plus poate fi folosit icircn cel puţin două variante

ndash CORECTURA sau varianta LUNGĂ ndash este varianta de lucru care permite o corectură completă icircn care se rulează atacirct opţiunile din meniul OCR_Plus cacirct şi alte opţiuni cum ar fi Ortografie şi editări care permit o corectură complexă inclusiv corectura cap-coadă prin citire

ndash CURĂŢAREA sau varianta SCURTĂ ndash se foloseşte pentru o curăţare rapidă a OCR-ului după care utilizatorul va continua corectura prin citire-cap coadă icircn alt editor de text Aceasta este varianta pe care o vom discuta icircn continuare

b Timpul de rulare a meniului OCR_Plus

Timpul depinde de mărimea documentului de corectat ceea ce este normal dar trebuie menţionat că dacă avem un document de 200 de pagini şi unul de 2 times 200 = 400 pagini timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare ci de aproximativ 2 times 2 adică de vreo patru ori

Dacă avem cărţi mari de curăţat este bine să le icircmpărţim icircn cacircte două sau trei părţi de circa 200 de pagini Din teste rezultă că mărimea optimă este icircn jurul a 200 de pagini

Programul păstrează setările astfel că toate părţile vor fi curăţate icircn acelaşi mod

c Aşa cum am menţionat şi altădată programul AC nu face totulhellip şi nici nu e necesar să facă totul Practic el este un instrument care ne ajută să curăţăm grosul greşelilor Adevărata curăţeniehellip adevărata corectură o face omul Utilizatorul poate stabili ce anume opţiuni rulează şi ce nu rulează alegacircnd opţiunile care-l avantajeazăhellip şi de asemenea el va putea icircmbunătăţi programul prin adăugarea de noi dicţionare cu icircnregistrări specifice cărţilor pe care le corectează Aceste dicţionare suplimentare le va putea adăuga după cum vom vedea la opţiunea 11

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 12: Explicatii Ocr Plus

Din meniul principal alegem bdquoOCR_Plusrdquo mdash gt bdquoRulează toate opţiunilerdquo ca icircn prima imagine

Programul va deschide fereastra cu lista de opţiuni aşa cum se vede icircn cea de-a doua imagine

Icircn această fereastră vom bifa [activa] opţiunile pe care vrem să le rulăm La opţiunile care sunt prevăzute cu Opţiuni de setare va trebui să verificăm dacă setările

default sunt cele care ne convin sau le vom modifica după dorinţă

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 13: Explicatii Ocr Plus

Este important de reţinut că aceste setări şi activareanonactivarea opţiunilor se păstrează pacircnă la o eventuală modificare sau o nouă instalare de executabil Icircn concluzie setările se fac o singiră dată pentru mai multe utilizări ale programului

După stabilirea tuturor setărilor se apasă butonul bdquoRuleazărdquo

Menţionaz că ordinea de rulare a opţiunilor a fost stabilită după mai multe testări şi cea default este considerată optimă Cu toate acestea opţiunile pot fi mutate icircn sus şi icircn jos astfel că ordinea lor se poate schimba dacă utilizatorul va voi să schimbe o anumită ordine de rulare a opţiunilor

Pentru a putea hotăricirc care dintre opţiuni să fie activate şi care nu precum şi care sunt setările necesare vom proceda la explicarea icircn detaliu a fiecărei opţiuni

Pentru ca unii utilizatori să nu fie tentaţi să renunţe la unele opţiuni fără a cunoaşte foarte bine ce anume modificări fac acele opţiuni voi explica avantajele folosirii fiecăreia icircn parte dar voi insista suficient şi pe eventualele dezavantaje ale rulării opţiunii

Legea nr1 AutoCorect PCR_Plus face o precorectură şi nu o corectură textului După rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coadă a textului

Dicţionarele pe care programul le rulează pentru executarea modificărilor realizează foarte multe icircnlocuiri corecte dar nu este exclus ca icircn text să facă şi icircnlocuiri eronate chiar dacă acestea sunt icircn număr mic pacircnă la extrem de mic

La editarea dicţionarelor s-a mers pe principiul ca un dicţionar să ajute cacirct mai mult pe cel ce corectează manual cu alte cuvinte dacă o icircnregistrare face foarte multe icircnlocuiri corecte dar din cacircnd icircn cacircnd produce şi modificări incorecte această icircnregistrare a fost făcută Practic s-a avut icircn vederea frecvenţa apariţiei icircntr-un text a unui anumit cuvacircnt icircntr-o anumită formă

Exemplu există icircn limba romacircnă atacirct cuvacircntul lt icircn gt cu o frecvenţă foarte-foarte mare icircn orice text dar există şi cuvacircntul lt in gt ce are o frecvenţă foarte mică Am ales să facem modificarea in gtgt icircn iar cacircnd corectorul găseşte icircn text că este vorba de cuvacircntul lt in = plantă tehnicăgt - atunci corectorul face modificarea manuală Sunt multe alte exemple

Legea nr2 vom activa TOATE acele opţiuni pe care le considerăm necesare Nu este indicat să facem corecturi manuale dacă ele se pot face automat şi mult mai rapid icircn

AutoCorect

Legea nr3 vom activa DOAR acele opţiuni pe care le considerăm necesare Nu este indicat să aglomerăm programul cu sarcini pe care nu le considerăm utile

Legea nr4 Legea 1 este OBLIGATORIE TOTDEAUNA ORIUNDE şi pentru ORICE TEXT Cine procedează altfel are şanse sigure SĂ STRICE un text deja corectat Din păcate sunt cacircţiva isteţi care au procedat astfel realizacircnd o versiune superioară la o calitate inferioară

Legile 2 şi 3 pot fi complet ignorate da e păcat

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 14: Explicatii Ocr Plus

1 CONVERTIRI PRELIMINARE

11 Conversie dialog bullets icircn dialog text12 Setare text la font şi mărime unică13 Eliminare tab şi spaţii multiple14 Eliminare spaţii la icircnceput de paragraf15 Repararea racircndurilor rupte16 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului

11 Conversie dialog bullets icircn dialog text Opţiunea aşa cum sugerează şi numele transformă liniile de dialog de tip bullets icircn linii de

dialog de tip text Păstrarea icircntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de

dialog din neatenţie sau dacă utilizatorul doreşte să facă reformatarea textului Opţiunea nu necesită multe explicaţii Va fi ACTIVATĂ obligatoriu Nu produce efecte

secundare nedorite Recomand ca această opţiune să fie rulată separat si la terminarea corecturii deoarece pe

timpul corecturii pot să mai apară icircn mod accidental situaţii icircn care linii noi de dialog apar ca buletts

12 Setare text la font şi mărime unică

Un OCR poate fi salvat de Abbyy icircn diferite formate doc rtf pdf htm lit etc Recomand o singură variantă şi anume RTF La racircndul lui şi RTF-ul poate fi salvat icircn mai multe variante de formatarendash RTF ndash Exact copy ndash RTF ndash Editable copyndash RTF ndash Formatted textndash RTF ndash Plain text Primele două [RTF ndash Exact copy şi RTF ndash Editable copy] pot fi acceptate doar dacă

OCR-ul extras va fi printat sau citit fără a fi corectat Corectura unor astfel de formatări necesită eforturi suplimentare mari şi nejustificate deoarece la aceste formatări apar zone de Text Box şi

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 15: Explicatii Ocr Plus

icircn principiu tot textul este inserat icircn Frame-uri cacircte un Frame pentru fiecare suprafaţă de text Abbyy [de reamintit că pe o pagină de carte sunt mai multe suprafeţe de recunoaştere a Abbyy deci fiecare pagină va avea cel puţin două-trei Frame] Pentru a realiza corectura va trebui ca mai icircntacirci să fie şterse aceste Frame şi icircncadrări de la Text Box

Dacă la o carte nu ne interesează păstrarea formatării italice [cursive] a zonelor scrise icircn acest mod sau pur şi simplu cartea este scrisă doar cu font drept [regular] atunci putem salva icircn varianta cea mai simplă RTF ndash Plain text şi vom avea text cu acelaşi font şi la aceeaşi mărime

Icircn principiu varianta optimă de salvare a unui text OCR icircn Abbyy este RTF - Formatted text

Această variantă salvează toate formatările de text dar fără icircncadrări de tip Box Text sau Frame Dezavantajul este că Abbyy va folosi mai multe tipuri de fonturi o mulţime de valori pentru mărimea textului de la 4-5 puncte tipografice pacircnă la valori foarte mari [chiar şi 150 puncte pentru cacircte un caracter singular recunoscut eronat] precum şi o serie de formatări false ale textului Din acest motiv este necesară o formatare a textului la font şi mărime unică

Această opţiune este una dintre cele mai complexe pe care le conţine meniul OCR_Plus Setările sunt de asemenea complexe astfel că vom insista mai mult pe fiecare grup de setări

Setare font Deşi fereastra de setare este suficient de sugestivă sunt necesare cacircteva explicaţii

ndash Nume font şi Mărime font Vom stabili fontul şi mărimea ca icircn orice editor Personal folosesc Bookman Old Style la mărimea 11 dar pot fi folosite şi alte fonturi şi mărimi conform obişnuinţei Recomand fontul Droid Serif este un font foarte uşor de citit icircn special pe Readere

ndash culoare ndash setarea poate rămacircne inactivă opţional se poate activa şi stabili culoarea [icircn principiu la cărţi se foloseşte culoarea Black şi nu Automatic]Recomandare personală setare inactivă

ndash B + I = I ndash această setare va icircnlocui toate bucăţile de text formatate bold+italic icircn font italic simplu neboldat De regulă icircn cărţile de beletristică nu este folosită formatarea Bold+Italic astfel că zonele

de text formatate astfel sunt de cele mai multe ori nicşte simple erori Abbyy Recomandare personală setare ACTIVĂ

ndash B gtgt N ndash această setare va icircnlocui toate bucăţile de text formatate cuBold simplu icircn font drept simplu neboldat La cărţile de beletristică este folosită formatarea Bold doar pentru numele capitolelor dar Abbyy va marca astfel toate zonele de text pe care nu este sigur că le-a recunoscut corect icircn special cuvintele care conţin litera O şi L mic lacircngă cratimă deoarece nu va şti sigur dacă acolo se află literele O sau L mic ori cifrele 0sau 1Recomandare personală setare ACTIVĂ

ndash Resetare zoom 100 ndash la alegerea utilizatorului Recomandare personală setare inactivă

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 16: Explicatii Ocr Plus

Setare paragraf

Aceste setări nu implică prea multe discuţii Se pot alege orice valori dar le recomand pe următoarele

ndash Alineatul are valori zero icircn marginea stacircngă şi dreaptă a paginii iar primul racircnd icircncepe mai din interior cu 05 cm [02 inches]

ndash Spaţiere racircnduri = 1 textul este scris la un racircndndash Spaţiere caractere = 0 Spaţiu dintre două litere este un spaţiu normal adică nu este

nici condensat nici expandat ndash Spaţiu paragraf Icircnainte = 0 După = 0 Spaţiul dintre paragrafe este unul normal ca

şi cel dintre racircnduri adică distanţa dintre două paragrafe este aceaşi cu cea dintre două racircnduri ale aceluiaşi paragraf deci tot la un racircnd

ndash Aliniere paragraf = stacircnga-dreapta sau ceea ce cunoaştem ca Justify

Setare pagină

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 17: Explicatii Ocr Plus

La setarea paginii lucrurile sunt foarte simple şi se procedează ca la setarea paginii icircn orice editor Recomand folosirea valorilor din imagine pagina format A5 cu marginile de 1 cm iar Antetul şi Subsolul de 05 cm

Menţionez că 05 cm asymp 02 inches iar 1 cm asymp 039 inches

Sunt foarte importante setările de font şi cele de paragraf dar poate rămacircne neactivată opţiunea de setare a paginii Setarea paginii se poate face atunci cacircnd icircncepe corectarea propriu-zisă prin citire-cap coadă a textului

După ce am definitivat setările de font paragraf şi pagină acţionăm butonul Setează pentru a salva setările şi a ieşi din fereastra de setare

13 Eliminare tab şi spaţii multiple Opţiunea converteşte toate taburile icircn spaţii simple şi de asemenea converteşte toate

spaţiile multiple icircntr-un singur spaţiu astfel că icircntre cuvinte va exista icircn tot textul cacircte un singur spaţiu Recomandare personală setare ACTIVĂ

14 Eliminare spaţii la icircnceput de paragraf Opţiunea elimină spaţiile existente la icircnceput de paragraf Este necesară eliminarea spaţiilor aflate la icircnceput de paragraf deoarece opţiunile de

corectare care rulează la pachetele următoare nu pot funcţiona corect sau nu pot funcţiona deloc dacă există astfel de spaţii la icircnceput de paragraf

Utilizatorul de Word sau alte editoare de text care se respectă nu va alinia icircnceputul de paragtaf prin adăugare de spaţii sau taburi icircn faţa primului racircnd ci va seta paragraful astfel icircncacirct prima linie să fie scrisă mai din interior Recomandare personală setare ACTIVĂ

15 Reparare racircnduri rupte S-a ales formularea racircnduri rupte ca fiind mai sugestivă dar opţiunea poate fi numită şi

repararea paragrafelor rupte Icircntr-un OCR pot apărea situaţii icircn care unele dintre paragrafe sunt rupte Cauzele apariţiei paragrafelor rupte sunt mai multe printre care - o simplă eroare de interpretare a Abbyy deşi setările au fost făcute corect - setare greşită icircn Abbyy [a fost activată opţiunea Keep line breaks din Tools -gt Options -

gt 3 Save -gt Text settings] - copiere directă cu CopyampPaste dintr-un fişier de alt tip pdf htm etc

Iată un exemplu de pagină rezultată din Abbyy care a avut setarea Keep line breaks activă - Vezi Img1

Se observă că toate racircndurile au devenit un fel de paragrafe Icircn a doua imagine se văd şi codurile de sfacircrşit de racircnd [semnul sub formă de săgeată

orientată icircn jos] şi codurile de sfacircrşit de paragraf [cel sub formă de P icircntors] -Vezi Img2 Icircn cazul icircn care ruperea paragrafelor ar fi avut un alt motiv decacirct setarea din Abbyy la

sfacircrşitul racircndurilor ar fi putut apărea semnul sfacircrşit de paragraf icircn locul semnului sfacircrşit de racircndIată cum apare pagina după rularea opţiunii 15 Reparare racircnduri rupte - Vezi Img3

Este important de menţionat că opţiunea are implementate opţiuni de setare aşa cum se vede icircn imaginea de mai jos

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 18: Explicatii Ocr Plus

Recomandări privind setările opţiuniiDin experienţa personală rezultă că se pot activa toate variantele fără probleme la cărţile de

beletristică Icircn cazul cărţilor de specialitate [drept economie medicină tehnicăetc] se va evita activarea opţiunilor nr 5 şi 10 sau se vor folosi cu mare atenţie Icircn cazul unor astfel de cărţi este normal să existe paragraf corect după punct şi virgulă icircn cazul icircn care este vorba despre o enumerare

Comentarii despre opţiuneOpţiunea rezolvă un număr relativ de erori icircn cazul unui OCR rezultat dintr-o extragere

Abbyy cu setări corecte Efectele negative ale opţiunii sunt limitate sau inexistente Singura menţiunea este cea privind setările 5 şi 10 icircn cazul unor cărţi cu structură diferită de literatura beletristică Icircn cazul textului obţinut cu CopyampPaste din formate speciale [pdf htm etc] opţiunea va scurta timpul şi efortul corecţiei manuale de la cacircteva ore la unul-două minute Recomandare opţiune setare ACTIVĂ

17 Rupere racircnduri care icircncep cu dialog aflate icircn interiorul paragrafului Sunt cazuri icircn care Abbyy lipeşte icircn mod eronat două paragrafe sau mai multe paragrafe

Cazurile sunt mai dese icircn cazul paragrafelor obişnuite dar există şi cazuri icircn care un paragraf care icircncepe cu linie de dialog a fost lipit la sfacircrşitul paragrafului din faţa sa

Opţiunea icircncearcă să repare această ultimă eroare şi rupe paragraful atunci cacircnd găseşte o liniuţă care icircndeplineşte condiţiile unei linii de dialog Astfel liniuţa trebuie să aibă spaţiu icircnainte şi după are o frază care se termină corect icircnaintea spaţiului din faţă şi are o frază care icircncepe cu literă mare după spaţiu de după liniuţă

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 19: Explicatii Ocr Plus

Sunt cazuri de beletristică icircn care toate condiţiile de mai sus apar şi icircn cazul unei linii de pauză Situaţiile sunt destul de rare dar există Mai mult decacirct atacirct aceste situaţii apar de regulă icircn cazul dialogurilor iar liniile de pauză separă ceea ce spune personajul de ceea ce comentează autorul deci confuzia poate fi mare dacă se face o rupere eronată

Rularea opţiunii poate produce erori icircn cazul unui anumit autor sau traducător dacă marcarea comentariilor autorului icircn dialoguri se face cu linii de pauză erorile pot avea o frecvenţă mai mare dacă aceste comentarii sunt marcate prin virgule erorile sunt minime sau inexistente Opţiunea trebuie folosită cu atenţie după o vizualizare cacirct de sumară a textului pentru stabilirea modului icircn care s-a făcut demarcarea comentariilor autorului de de ceea ce spun personajele icircntr-un dialog

Iată două moduri corecte de marcare a comentariilor autorului icircntr-un dialog mdash Nu sunt credincios ndash zise el ndash dar am să spun Tatăl Nostru de zece ori ca să prind

peştelemdash Nu sunt credincios zise el dar am să spun Tatăl Nostru de zece ori ca să prind peşteleIcircn cazul icircn care icircn carte se foloseşte metoda liniilor explicative ca icircn primul exemplu

activarea opţiunii ar putea produse erori Icircn cel de-al doilea caz erorile sunt aproape excluse Recomandare personală utilizatori icircncepători = setare inactivă şi utilizatori avansaţi =

setare ACTIVĂ

2 PUNCTUAŢIE

21 Eliminare artefact-paragraf 22 Corectare linii de pauză şi linii de dialog 23 Funcţii obişnuite 24 Corectare suplimentară elipsis 25 Conversie combinaţii şi

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 20: Explicatii Ocr Plus

21 Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf icircn cazul de faţă este un paragraf care nu conţine text cu doar un caracter sau combinaţi de două sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de răgălie] Opţiunea caută şi modifică un astfel de paragraf şi şterge răgăliile transformacircnd paragraful icircn unul gol fără conţinut Această opţiune funcţionează prin rularea dicţionarului CO_Artefimd respectiv CL_DArtefimd Exemplu de caractere-răgălii icircnregistrate la acest moment diams bull ^ lt gt | loz brvbar _ $ pound + = [ ] sect Este important de reţinut că dicţionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite icircn OCR Menţionez că la editarea dicţionarului trebuie să se ţină cont de faptul că toate icircnregistrările au icircn mod obligatoriu condiţiile Icircnceput de paragraf Pi şi Sfacircrşit de paragraf Ps la care se adaugă Potrivire perfectă Pp Icircn ultima coloană a dicţionarului trebuie să apară condiţiile Pp Pi Ps Dacă una dintre cele două condiţii Pi sau Ps lipseşte programul va căuta astfel de situaţii şi la icircnceputul sau sfacircrşitul unor paragrafe care conţin text ceea ce poate afecta corectitudinea textului deoarece pe lacircngă răgălii au fost icircnregistrate sau se pot icircnregistra şi semne de punctuaţie solitare sau chiar litere solitare Aşa cum este editat dicţionarul la momentul actual nu există efecte secundare nedorite Recomandare personală setare ACTIVĂ

22 Corectare linii de pauză şi linii de dialog Opţiunea este implementată pe bază de cod şi rularea automată a două dicţionare CO_LinPimd şi CO_LinDimd [CL_LinPimd şi CL_LinDimd] CO_LinPimd ia icircn calcul liniile de pauză deci linii indiferent unde s-ar afla icircn text şi rulează primul iar CO_LinDimd se ocupă doar de curăţarea liniilor de dialog deci are condiţia onligatorie Icircnceput de paragraf Pi La rularea acestei opţiuni sunt curăţate de răgălii liniile de pauză şi liniile de dialog altfel spus se elimină din jurul liniilor de dialog şi liniilor de pauză diferite caractere recunoscute eronat indifernt dacă acestea sunt lipite de linii icircn faţa lor sau după ele sau dacă icircntre linii şi răgălii există spaţiu Nu se fac modificări acolo unde liniile sunt de tip cratimă şi lipite de litere Efectele negative ale opţiunii sunt minime de circa două-trei procente Folosirea opţiunii scurtează icircn foarte-foarte măsură timpul necesar la corectura manuală Cele două dicţionare pot fi icircmbunătăţite se vor urmări cu atebţie condiţiile ce trebuie puse icircnregistrărilor

Recomandare personală setare ACTIVĂ

23 Funcţii obişnuite Opţiunea pune icircn aplicare toate setările care s-au făcut la Configurare - Punctuaţie - OCR_Plus Problemele au fost tratate detaliat icircn postarea privind Configurare - Punctuaţie - OCR_Plus aşa că nu mai reluăm explicaţiile Recomandare personală setare ACTIVĂ

24 Corectare suplimentară elipsis Elipsis este caracterul asemănător cu trei puncte color=7FFFD4]hellipPi[color] doar că este

un singur caracter şi nu o succesiune de 3 caractere Este foarte important ca icircn locul punctelor de suspensie să fie folosit caracterul Elipsis deoarece icircn interpretarea unor opţiuni se poate face

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 21: Explicatii Ocr Plus

confuzie icircntre caracterul punct şi unul dintre punctele componente de la punctele de suspensie Discuția s-a purtat pe forum fapt pentru care nu insist asupra importanţei caracterului Elipsis

La opţiunea 23 Funcţii obişnuite se face conversia succesiunii de 3 sau mai multe puncte icircn Elipsis

Această opţiune adaugă icircn plus alte cacircteva situaţii icircn care succesiunea este compusă din puncte şi virgule icircn diferite combinaţii aşa ca icircn exemplele următoare

helliphellip

Toate aceste combinaţii sunt transformate icircntr-un singur caracter Elipsis Recomandare personală setare ACTIVĂ

25 Conversie combinaţii şi Există situaţii icircn care caracterul este icircnsoţit icircn mod eronat de un caracter punct sau de un

caracter virgulă Punctul sau virgula sunt lipite de caracterul icircnainte sau după el astfel Acelaşi lucru este posibil şi cu caracterul Exemplu Punctul sau virgula din aceste situaţii sunt la origine mici pete de imagini determinate de

vechimea hacircrtie sau textura de slabă calitate a hacircrtiei ori din alte morive Practic aceste puncte sau virgule nu există icircn textul original şi ar trebui eliminate

Icircn principiu la rularea acestei opţiuni punctul sau virgula lipită de sau de sunt eliminate astfel că

se transformă icircn

se transformă icircn Opţiunea are o fereastră de setare a combinaţiilor Aceasză opţiune este implementată icircn ultima perioadă astfel că nu au fost făcute foarte

multe teste Recomandare personală setare ACTIVĂ cu activarea tuturor situaţiilor din setare dar şi

urmărirea pe cacirct posibil a efectelor opţiunii asupra textului

3 CONVERSIE TEXT CLASIC IcircN TEXT CONTEMPORAN

Aceasta opţiune este implementată icircn AutoCorect oficial icircncă de la apariţia primelor versiuni şi se află ca opţiune independentă icircn meniu la Editare --gt Conversie text clasic icircn text contemporan

Deoarece opţiunea este folosită frecvent icircn curăţarea OCR s-a convenit ca ea să fie accesată şi din acest meniu şi să poată fi rulată automat icircn cadrul meniului OCR_Plus

Practic opţiunea icircnlocuieşte formele lt sicircnt sicircntem sicircnteţi gt cu lt sunt suntem sunteţi gt şi icircnlocuieşte litera lt icirc gt din interiorul cuvintelor cu litera lt acirc gt

Opţiunea funcţionează astfel icircncacirct să nu afecteze scrierea cu lt icirc gt icircn interiorul cuvintelor compuse astfel că nu face icircnlocuirea lui lt icirc gt icircn cazul cuvintelor compuse cu prefixele din imaginea următoare Vezi imagine

Icircnlocuirea NU FACE şi o corectare a cuvintelor ci doar conversia litereiicirc gtgt acirc şi a celor trei forme sicircnt

Există o singură excepţie la rularea opţiunii cuvintele lt nici o gt şi lt nici un gt se transformă icircn lt nicio gt şi lt niciun gt

Pentru repararea unor efecte suplimentare nedorite ale acestei corecţii au fost făcute cacircteva icircnregistrări de forma nicio singură gtgt nici o singură niciunei singure gtgt nici unei singure niciun singur gtgt nici un singur niciunui singur gtgt nici unui singur

Foarte important

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 22: Explicatii Ocr Plus

Sunt icircmpărţite părerile userilor cu privire la păstrarea textului cu grafia clasică sau convertirea la grafia contemporană

Nu icircncerc să susţin o variantă sau alta chiar dacă nu mi se pare corect să scriem astăzi aşa cum se scria icircn urmă cu aproape 20 de ani dar trebuie avut icircn vedere că TOATE DICŢIONARELE CARE RULEAZĂ AUTOMAT IcircN MENIUL OCR_PLUS AU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE IcircN LIMBA ROMAcircNĂ CONTEMPORANĂ

Aceste dicţionare au fost gacircndite şi au o anumită logică pentru erori ce apar la texte icircn varianta Contemporană Pentru varianta Clasic s-a făcut doar o icircnlocuire simplă a literei lt acirc gt cu lt icirc gt icircn icircnregistrări Este posibil ca unele icircnregistrări icircn varianta Clasic să nu producă efecte

Icircn concluzie cine doreşte să beneficieze de toate facilităţile meniului OCR_Plus trebuie să activeze această opţiune

Recomandare personală setare ACTIVĂ

4 CORECTARE CARACTERE REPRODUSE ERONAT

41 Corectarea majusculelor icircncorporate 42 Corectarea literelor l d şi m reproduse eronat 43 Corectare cuvinte foarte scurte 44 Corectarea minuscule la icircnceput de paragraf 45 Convertire majusculă icircn minusculă icircn dialog francez 46 Icircnlocuire secvenţe cuvinte

Cacircnd spunem erori de OCR cel mai adesea ne referim la erori de recunoaştere a caracterelor

Există caractere asemănătoare ca formă precum cifra 1 sau semnul de punctuaţie şi litera L mic cifra 0 şi litera O grupul c+l şi litera d grupul r+n şi litera m caracterele $ sau sect şi litera Ş confuzii icircntre literele e şi c

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 23: Explicatii Ocr Plus

Erori de OCR sunt şi rocade de două litere alăturate astfel că grupul et poate fi reprodus ca te şi multe alte erori icircn care icircn locul unui caracter Abbyy recunoaşte un alt caracter

Unele erori sunt date de insuficienţa icircnregistrărilor icircn dicţionarul de limba romacircnă la care Abbyy are acces

Acest pachet de opţiuni icircncearcă să rezolve o parte din aceste erori Pachetul se bazează icircn principal pe rularea automată a unui număr mare de dicţionare de tip

OCR_Plus Icircn acest moment pachetul icircn totalitatea lui rulează 12 dicţionare cu peste 4600 de

icircnregistrări Mai sunt icircn lucru alte cacircteva dicţionare de secvenţe care nu au fost definitivate şi implementate

Este posibil ca icircn perioada următoare pachetul să mai fie icircmbunătăţit şi cu alte opţiuni dar acest lucru nu va complica modul de lucru al utilizatorului deoarece opţiunile au un element comun - rularea automată de dicţionare care fac icircnlocuiri de cuvinte sau secvenţe de cuvinte

Practic toate opţiunile din pachet ar putea fi comprimate icircn una singură numită Corectare caractere reproduse eronat A fost aleasă varianta divizării icircn mai multe opţiuni pentru ca numele acestora să sugereze şi categoriile de icircnlocuiri pe care o anume opţiune le face

O caracteristică un pic aparte o are opţiunea 45 Convertire majusculă icircn minusculă icircn dialog francez pe care o vom sublinia la momentul respectiv

Pentru ca utilizatorul să fie convins de necesitatea rulării acestor opţiuni şi să nu aibă reţineri la activarea lor pe motiv că ele ar produce efecte secundare nedorite vom descrie icircn detaliu fiecare opţiune icircn parte

E posibil ca explicaţiile să fie ceva mai lungi decacirct la alte opţiuni astfel că am ales varianta ca unele dintre opţiuni să fie tratate icircn cacircte o postare separată Este mai uşor de urmărit o postare care nu este foarte lungă şi este mult mai uşor de editat şi modificat

41 Corectarea majusculelor icircncorporate

Termenul de majusculă icircncorporată se referă [icircn acest caz] la scrierea eronată cu una sau mai multe litere majuscule icircn interiorul unor cuvinte ce trebuie să conţină doar litere minuscule

Există cacircteva litere care au aceeaşi formă atacirct icircn forma majusculă cacirct şi icircn forma minusculă

Este vorba despre literele C J O P S Ş U V WZ care seamănă pacircnă la identificare cu forma lor minusculă c j o p s ş u v w z

Icircn cazul acestor litere icircntre majusculă şi minusculă există doar diferenţă de mărime Din acest motiv Abbyy poate face confuzii icircntre minuscula şi majuscula unei litere fapt

pentru care pot rezulta OCR care au litere majuscule icircn interiorul cuvintelor scrise cu minuscule

Iată ultima frază scrisă icircn acest mod Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii icircntre minUSCUla şi majUSCUla unei litere

fapt pentrU care pOt rezUlta OCR care aU litere majUSCUle icircn interiOrUl CUvintelOr SCriSe CU minUSCUle

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 24: Explicatii Ocr Plus

Opţiunea rulează pe bază de cod şi rezolvă situaţii din cele menţionate mai sus Recomandare personală setare ACTIVĂ

42 Corectarea literelor l d şi m reproduse eronat

Opţiunea rulează automat următoarele 5 dicţionare ndash CO_L1imd CO_L2imd şi CO_L3imd ndash pentru corecţiile cifra 1 gtgt L mic gtgt L mic şi

cifra 0 gtgt litera O ndash CO_Gclimd ndash pentru corectarea grupul c+l gtgt litera d ndash CO_Grnimd ndash pentru corectarea grupul r+n gtgt litera m

Să analizăm pe racircnd fiecare grupă de erori

Cifra 1 icircn locul literei l [L mic] La marea majoritate a fonturilor de tip serif cifra 1 şi litera L mic sunt foarte asemănătoare

Fontul Bookman Old Style le reproduce identic iar icircn Times New Roman [font folosit frecvent la tipărirea cărţilor] sunt foarte asemănătoare pentru detalii despre fonturi serif şi sans serif vezi imagine aici şi detalii suplimentare aici

Abbyy face frecvent această confuzie şi scrie cifra 1 icircn loc de litera l [L mic] icircn situaţiile icircn care litera L mic este lipită de cratimă indiferent dacă este vorba de cratimă icircnaintea literei sau cratimă după litera L mic Abbyy crede că respectiva cratimă este semnul minus din matematică iar litera L mic este cifra 1 icircn concluzie cratimă lipită de litera L este considerat a fi unu minus sau minus unu

Există un număr mic de useri icircncepători care fac corectura cap-coadă a unui text şi nici nu realizează că textul lor conţine un mare număr de caractere cifra 1 acolo unde trebuia să fie L mic

Cifra 0 icircn locul literei O [mic sau mare] Cauzele apariţiei unor astfel de situaţii sunt similare celor de la cifra 1 gtgt litera L mic

Subliniiez că cifra 0 neicircnspţită de alte semne este corectată ca fiind litera O mare iar cifra 0 lipită de liniuţe este modificată ca fiind litera O mic din compunerea unui cuvacircnt cu cratimă

Semnul exclamării icircn locul literei l [L mic] Semnul exclamării poate fi reprodus de Abbyy icircn locul literei L mic atunci cacircnd baza literei

L mic nu este clar reprodusă icircn carte ca urmare a unui tipar defectuos sau uzura icircn timp [ştergerea merginilor literei găurirea literei Pentru corectarea gtgt l nu au fost luate icircn calcul situaţiile icircn care litera L mic ocupă poziţia finală icircn cuvacircnt ci doar dacă după semnul urmează cel puţin o literă mică

Toate aceste situaţii sunt corectate prin rularea dicţionarelor CO_L1imd CO_L2imd şi CO_L3imd respectiv CL_L1imd CL_L2imd şi CL_L3imd pentru AC Clasic

Icircn principiu la acest moment dicţionarele sunt structurate astfel L1 cuprinde cuvinte icircntregi L2 cuprinde secvenţe de sfacircrşit de cuvacircnt şi L3 cuprinde secvenţe de icircnceput de cuvacircnt Faţă de această structură există şi icircnregistrări care fac excepţie este vorba de icircnregistrările care converteşte semnul icircn L mic şi care deşi nu sunt cuvinte icircntregi ci secvenţe de două caractere au fost icircnregistrate icircn primul dicţionar

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 25: Explicatii Ocr Plus

Variante de dicţionare cu acest rol au icircnceput să fie editate şi rulate icircn AutoCorect icircn urmă cu peste doi ani Actualele dicţionare au la bază acele dicţionare care au fost icircmbogăţite şi perfecţionate de-a lungul timpului Erorile constatate sau reclamate de diverşi useri de-a lungul timpului au fost eliminate sau corectate

Icircn mod sigur dicţionarele nu sunt perfecte şi necesită icircmbunătăţire permanentă dar icircn ultima perioadă nu au fost constatate sau raportate efecte secundare importante

Menţionez că icircn acest moment există icircn dicţionarul CO_L3imd cacircteva icircnregistrări care necesită confirmare la rulare Acest lucru este neplăcut pentru utilizator deoarece rularea automată a meniului poate fi icircntreruptă şi programul [dacă găseşte astfel de situaţii icircn textul de corectat] să aştepte confirmarea pentru a rula mai departe

Viitoarea versiune de dicţionare aflată acum icircn lucru icircncearcă să elimine la maxim condiţia de confirmare la dicţionarele care vor rula la această opţiune va fi eliminată complet condiţia de confirmare a icircnlocuirilor

Succesiunea de litere c l icircn locul literei d şi succesiunea de litere r n icircn locul literei m Litera d [D mic] poate fi confundată de Abbyy cu succesiunea de litere c+l lt cl gt uneori

confuzia se poate face şi icircn sens invers Astfel de confuzii se pot face şi icircntre litera m [M mic] şi succesiunea de litere r+n lt rn gt Se poate urmări asemănarea dintre succesiunile şi literele menţionate icircn imaginea cl=d şi

rn=m Dicţionarul CO_Gclimd realizează o serie de corecţii ale succesiunii cl gtgt d pentru cuvinte

cu frecvenţă mai mare icircn limba romacircnă Dicţionarul CO_Grnimd realizează corecţii ale succesiunii rn gtgt m

Din testări rezultă că astfel de confuzii se produc mai mult icircn cazul cuvintelor scurte şi mai rar icircn cazul cuvintelor lungi

Există şi cacircteva cuvinte la care nu se pot face modificări automate deoarece sunt valabile icircn limba romacircnă atacirct cuvintele care conţin litera d dar şi succesiunea cl cum ar fi cele din exemplul următor

clacă - dacă clar - dar clin - din clădea - dădea Astfel de cuvinte au fost trecute icircn dicţionarele cu variante şi confirmare care rulează la

opţiunea 122 Pentru succesiunea rn gtgt m există noi icircnregistrări care vor fi cuprinse icircn noua versiune de

dicţionare Menţionez că dicţionarele pot fi şi trebuie să fie icircmbunătăţite cu alte icircnregistrări la acest

moment ele pot rezolva majoritate confuziilor de tip cl gtgt d şi rn gtgt m La rularea dicţionarelor nu am constatat efecte secundare nedorite Icircn principiu dicţionarele de la icircntregul pachet de opţiuni sunt gacircndite să realizeze cacirct mai

multe corecturi fără a face modificări nedorite Atunci cacircnd o anume icircnregistrare ar fi putut produce efecte secundare nedorite am preferat să nu fac icircnregistrarea respectuvă icircn dicţionar

Recomandare personală setare ACTIVĂ

43 Corectare cuvinte foarte scurte

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 26: Explicatii Ocr Plus

Opţiunea rulează automat următoarele 4 dicţionare CO_Sc1imd CO_Sc2imd CO_Sc3imd şi CO_Sc4imd

Dicţionarele corectează erori de recunoaştere care apar la cuvinte foarte scurte de pacircnă la 4 litere inclusiv

Există ca excepţie şi un număr foarte-foarte mic de icircnregistrări care se referă la cuvinte formate din cinci litere

Pentru dezvoltatori menţionez că structura dicţionarelor nu este respectată ferm dar icircn principiu se poate menţiona că dicţionarul CO_Sc1imd face corecţii atacirct pentru cuvinte icircntregi formate din două litere dar şi pentru cacircteva secvenţe de cacircte două litere aflate la icircnceput sau la sfacircrşit de cuvinte dicţionarul cuprinde şi situaţii foarte rare dar posibile icircn care litera Ş este recunoscută ca $ sau sect iar litera E este recunoscută ca pound

Dicționarele CO_Sc2imd CO_Sc3imd şi CO_Sc4imd corectează numai cuvinte icircntregi formate din 3 sau 4 litere

Toate cele 4 dicţionare cuprind icircnregistrări de cuvinte cu şi fără cratimă Posibilitatea de realizare a unor icircnlocuiri nedorite este teoretic imposibilă

Recomandare personală setare ACTIVĂ

44 Corectarea minuscule la icircnceput de paragraf

Opţiunea rulează automat dicţionarul CO_Midpimd [CL_Midpimd] care cuprinde aproape 2000 de icircnregistrări Practic opţiunea realizează majusculări şi corecturi suplimentare faţă de cele realizate la opţiunea 23 Punctuaţie gtgt Funcţii obişnuite Efectul este maxim dacă la setarea punctuaţiei se activează opţiunile ca icircn imaginea următoare de mai jos Activarea mai multor opţiuni de setare faţă de cele activate icircn imagine nu este recomandată deoarece se vor realiza majusculări icircn plus icircn poziţii de text icircn care majuscularea este incorectă

Dicţionarul execută două categorii de icircnlocuiri

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 27: Explicatii Ocr Plus

ndash Majuscularea unor litere care au atacirct icircn varianta majusculă cacirct şi icircn cea minusculă formă identică Următoarele literec-Cicirc-Icircj-Jo-Op-Ps-Sş-Şu-Uv-Vx-Xy-Yz-Z se majusculează doar dacă ele apar ca prima literă după linia de dialog

Nu recomand dezvoltarea dicţionarului cu icircnregistrări care să realizeze majuscularea acestor litere icircn alte situaţii

ndash Un număr de circa 650 de cuvinte care icircncep cu litera Icirc şi sunt recunoscute icircn mod eronat ca icircncepacircnd cu litera I se corectează icircn următoarele 3 situaţii la icircnceput de paragraf la icircnceput de dialog şi la icircnceputul unei fraze [care icircncepe după frază terminată cu PUNCT]aflată icircn interiorul paragrafului

La editarea dicţionarelor s-a urmărit evitarea icircnregistrării paronimelor [cuvinte care au atacirct varianta corectă care icircncepe cu Icirc cacirct şi variantă corectă care icircncepe cu I ca de exemplu Icircntre - Intre]

Posibilitatea de realizare a unor icircnlocuiri nedorite icircn forma actuală a dicţionarului este teoretic imposibilă

Recomandare personală setare ACTIVĂ

45 Icircnlocuire secvenţe cuvinte

Opţiunea rulează automat următoarele 6 dicţionare CO_SInc1imd ndash CO_SInc2imd ndash corectează secvenţe de icircnceput de cuvacircnt CO_SMed1imd ndash CO_SMed2imd ndash corectează secvenţe de la mijlocul cuvacircntului [medii] CO_STer1imd ndash CO_STer2imd ndash corectează secvenţe de sfacircrşit de cuvacircnt [terminale]

Prin noţiunea de secvenţă de cuvacircnt icircn sensul prezentei opţiuni se icircnţelege o succesiune de litere aflate la icircnceputul la mijlocul sau la sfacircrşitul cuvacircntului

S-a notat cu SInc - secvenţele aflate la icircnceputul cuvintelor cu SMed - secvenţele aflate icircn interiorul cuvacircntului [SMed = secvenţe mediane] şi cu STer - secvenţele aflate la sfacircrşitul cuvintelor [STer = secvenţe terminale] Numele nu sunt probabil cele mai inspirate dar au fost alese astfel pentru a păstra o ordine alfabetică a lor

Pentru a icircnţelege mai bine rolul acestei opţiuni e bine să discutăm cacircteva exemple de secvențe

Secvențe de icircnceput aplee gtgt aplec Există circa 90 de cuvinte care icircncep cu secvenţa aplec printre care aplec apleca aplecai aplecam aplecară aplecarăm aplecarăţi aplecare aplecareahellip aplecător aplecători aplecătorii aplecătorilor aplecătorul aplecuşurilor dar nu există niciun cuvacircnt care să icircnceapă cu secvenţaaplee

Secvențe mediane bcg gtgt beg Există peste 300 de cuvinte care conţin secvenţa [succesiunea] beg dar nu există niciun cuvacircnt care să conţină secvenţa bcg Dicţionarele conţin foarte multe icircnregistrări care modifică litera c aflată icircntre consoane cu litera e icircntre consoane de asemenea multe situaţii icircn care litera L mic aflată icircntre consoane a fost modificată cu litera i icircntre două consoane

Fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect icircn folderul de instalare

Secvențe de sfacircrşit lulul gtgt lului Există peste 5100 de cuvinte care se termină cu secvenţa [succesiunea] lului dar nu există niciun cuvacircnt care să se sfacircrşească cu secvenţa lulul Şi la

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 28: Explicatii Ocr Plus

editarea acestor dicţionare ca de altfel la marea majoritate a icircnregistrărilor fiecare secvenţă icircnainte de a fi icircnregistrată a fost verificată dacă există sau nu icircn componenţa cuvintelor aflate icircn dicţionarele limbii romacircne pe care le icircncarcă AutoCorect

Foarte important Opţiunea este relativ de curacircnd implementată fapt pentru care unele dintre dicţionare sunt

la icircnceput de drum Dicţionarele SMed1 şi SMed2 sunt relativ complete dar pot fi dezvoltate cu mare atenţie astfel ca secvenţele propuse modificării să nu provoace icircnlocuiri nedorite

Dicţionarele care fac icircnlocuiri ale secvenţelor de icircnceput [SInc1 şi SInc2] şi cele care fac icircnlocuiri ale secvenţelor de sfacircrşit [STer1 şi STer2] conţin foarte puţine icircnregistrări şi este necesară icircmbogăţirea și perfecționarea lor

Comentariu Icircn legătură cu modificările care se realizează la această opţiune şi la opţiunea următoarea

se cuvine să facem un scurt comentariu

Icircnlocuirile de cuvinte icircntregi au avantajul că au o corectitudine maximă iar efectele secundare sunt practic imposibile

Dezavantajul icircn cazul icircnlocuirii cuvintelor icircntregi este faptul că probabilitatea existenţei icircn text a erorilor de acest gen este relativ mică

De exemplu icircn cazul icircnlocuirii imponderabilitatc gtgt imponderabilitate corectitudinea este de 100 iar efectele secundare sunt zero Probabilitatea ca acest cuvacircnt să existe icircn text icircn această formă este foarte mică

Icircnlocuirile de secvenţe de cuvinte au dezavantajul că pot produce uneori efecte secundare nedorite dar au avantajul că frecvenţa lor icircn text este mult mai mare şi se vor face mult mai multe icircnlocuiri

De exemplu secvenţa finală oarc gtgt oare poate fi valabilă pentru circa 3787 de cuvinte din limba romacircnă Partea neplăcută este că uneori şi secvenţa finală carcpoate fi recunoscută icircn mod eronat icircn forma oarc deci icircnlocuirea de mai sus nu prezintă corectitudinea de 100

Recomandare personală setare ACTIVĂ

47 Convertire majusculă icircn minusculă icircn dialog francez

Opţiunea se bazează pe rularea automată a dicţionarului CO_DFrimd Această opţiune funcţionează la pachet cu o setarea din Configurarea Punctuaţiei OCR

Plus Este vorba despre setarea din imaginea următoare

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 29: Explicatii Ocr Plus

Dacă se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu se vor majuscula toate cuvintele care icircncep după semnele şi inclusiv icircn poziţiile din text icircn care majuscularea este incorectă [poziţiile cunoscute ca fiind dialog francez] Din acest motiv [pentru că se majusculează şi situaţiile icircn care textul trebuie scris cu minusculă] este obligatorie activarea aceastei opţiuni 47 Convertire majusculă icircn minusculă icircn dialog francez care va rula dicţionarul CO_DFrimd

Dicţionarul face corecţii de genul Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise Icirci spuse gtgt icirci spuse Icirci strigă gtgt icirci strigă Icirci şopti gtgt icirci şopti Icirci vorbi gtgt icirci vorbi Icirci zise gtgt icirci zise

Dacă la Configurarea Punctuaţiei OCR Plus nu se activează setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu este nevoie să ruleze opţiunea de faţă Este posibil ca icircn această situaţie să rămacircnă cacircteva situaţii care vor necesita majusculare dar acest lucru se va putea face manual cu ocazia corecturii

Icircn concluzie ndash Dacă la Configurarea Punctuaţiei OCR Plus activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci este obligatorie activarea opţiunii 47 Convertire majusculă icircn minusculă icircn dialog francezndash Dacă la Configurarea Punctuaţiei OCR Plus nu activăm setarea Majusculă la icircnceput de frază ndash după şi urmat de spaţiu atunci nu vom activa nici opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez

Care este varianta cea mai bună Părerile sunt icircmpărţite useri cu experinţă icircn corectură preferă să nu activeze aceste opţiuni

şi să execute eventualele majusculări icircn mod manual iar alţi useri cu experinţă icircn corectură adoptă varianta activării ambelor opţiuni

Ceea ce pentru un utilizator al programului pare mai comod şi mai uşor pentru alt utilizator poate părea greoi şi dificil şi invers

Cel mai bine este ca fiecare user să-şi stabilească varianta preferată Pentru a stabili varianta optimă este bine să se facă testări icircn ambele variante prin ceea ce

vom numi Test 100 adică testarea a o sută de pagini de carte Se alege un text de maxim 100 de pagini de carte se prelucrează separat icircn cele două

variante şi apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atentă dar fără a face o corectură prin citire cuvacircnt cu cuvacircnt] se stabileşte varianta care pare mai comodă

Menţiune importantă Există 8 icircnregistri care ar trebui să ruleze icircn acest dicţionar dar pentru că necesitau

confirmare icircn mod obligatoriu au fost mutate icircn ultimul dicţionar care rulează icircn cadrul Meniului OCR Plus este vorba de dicţionarul CO_Var4imd iar icircnregistrările se alflă pe ultimele 8 poziţii ale dicţionarului

Aceste icircnregistrări sunt I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ I^_ gtgt i^_ Le^_ gtgt le^_ O^_ gtgt o^_ Se^_ gtgt se^_ Informez utilizatorii că grupul de caractere^_este codul pentru spaţiu

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 30: Explicatii Ocr Plus

Utilizatorii care nu activează opţiunea 47 Convertire majusculă icircn minusculă icircn dialog francez cacircnd programul va ajunge să ruleze aceste icircnregistrări cu confirmare vor acţiona asupra butonului renunţ pentru fiecare dintre icircnregistrări pentru ca programul să renunţe la căutări

Butonul Renunţă ocupă poziţia a treia icircn fereastra de confirmare redată icircn imaginea de mai jos

46 Corectare cuvinte icircntregi şi expresii

Opţiunea rulează automat următoarele 5 dicţionare CO_CImf1imd ndash CO_CImf3imd ndash corectează cuvinte icircntregi CO_Expr1imd ndash CO_Expr2imd ndash corectează grupuri de cuvinte [expresii]

Această opţiune ca şi cea anterioară este implementată icircn ultima perioadă fapt pentru care dicţionarele cuprind un număr relativ mic de icircnregistrări faţă de posibilităţile reale De aceea este necesară icircmbunătăţirea icircn continuare a acestor dicţionare

Pentru dezvoltatori este relativ simplu de adăugat cuvinte icircn dicţionarele CO_CImf1imd ndash CO_CImf3imd dar trebuie să acorde atenţie sporită la dezvoltarea dicţionarelor care conţin grupuri de cuvinte [CO_Expr1imd ndash CO_Expr1imd]

De ce este necesară o opţiune specială pentru icircnlocuiri de cuvinte icircntregi şi expresiiPractic această opţiune face o dezvoltare o lărgire a opţiunii 43 Corectare cuvinte foarte

scurte La acest moment nu pare să existe o diferenţă foarte clară icircntre tipurile de icircnlocuiri ale cuvintelor icircntregi ale celor două opţiuni dar icircn timp ce opţiunea 43 face corectări ale cuvintelor scurte de maxim 4 litere această opţiune prin dicţionarele saleCO_CImf1imd ndash CO_CImf3imd trebuie să realizeze corectări ale cuvintelor mai lungi

Dicţionarele care corectează grupuri de cuvinte reprezintă mai mult decacirct o lărgire a icircnlocuirilor de cuvinte icircntregi Deşi icircnregistrările fac icircnlocuiri de grupuri de cuvinte practic modificarea se face doar asupra unui singur cuvacircnt din grup celelalte cuvinte avacircnd rolul de coordonate icircn căutarea cu precizie a cuvacircntului de icircnlocuit

Cuvintele ce sunt corectate se pot modifica prin varianta icircnlocuire cu confirmare dar această metodă solicită mai mult timp pentru rezolvare precum şi intervenţia utilizatorului la fiecare cuvacircnt găsit

Există cacircteva paronime icircntacirclnite frecvent icircn OCR-uri care necesită corectare aşa cum ar fi de exemplu sting-stacircng stingi-stacircngi stingă-stacircngă lingă-lacircngă intre-icircntre

Abbyy recunoaşte ambele variante de cuvinte icircn forma scrisă cu litera i deci sting stingi stingă lingă intre menţionez că icircn text au frecvenţă mai mare exact celelalte cuvinte adică stacircng stacircngi stacircngă lacircngă icircntre

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 31: Explicatii Ocr Plus

Dacă s-ar face icircnregistrarea sting gtgt stacircng icircnlocuirea cuvacircntului sting cu cuvacircntul stacircng ar trebui confirmată sau respinsă pentru fiecare icircnlocuire icircn parte Făcacircnd icircnregistrări de grupuri de cuvinte de forma piciorpiciorulpiciorului sting gtgt piciorpiciorulpiciorului stacircng umăr sting gtgt umăr stacircng atunci icircnlocuirea se poate face automat fără confirmare Pentru cuvintele lingă-lacircngă şi intre-icircntre mai icircntacirci s-au făcut icircnlocuirile lingă gtgt lacircngă şi intre gtgt icircntre după care au fost făcute icircnlocuiri icircn expresii de două pacircnă la cinci cuvinte astfel icircncacirct icircnlocuirile să se facă fără confirmare şi cacirct mai sigur

Icircn afara acestor paronime Abbyy face uneori confuzii de recunoaştere icircntre cuvintele ele şi de Icircn cazul acestor cuvinte confuzia poate exista sau nu iar atunci cacircnd există este frecventă folosirea cuvacircntului ele icircn locul lui de

Prin folosirea icircnregistrărilor de tipul faţă ele gtgt faţă de faţă ele gtgt faţă de formă ele gtgt formă de la un pas ele gtgt la un pas de numărul de situaţii ce trebuie corectate manual se reduce foarte mult

Recomandare personală setare ACTIVĂ

5 MARCARE CARACTERE

ndash Marcare ghilimele ndash Marcare apostroafe ndash Marcare consoane independente icircn format bdquoSpaţiu_Consoană_Spaţiurdquo ndash Marcare caracterele ~ amp ( ) ndash Marcare caracterele ~ amp = + $ Ł [ ] ( ) gt lt

Numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii icircn legătură cu această opţiune

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 32: Explicatii Ocr Plus

Opţiunea permite utilizatorilor să marcheze prin colorare diferite caractere pentru a fi mai uşor de urmărit la corectare

După cum se poate vedea icircn imagine utilizatorul poate marca doar anumite caractere sau toate caracterele implementate icircn opţiune Pentru fiecare dintre cele 5 categorii de caractere se poate alege cacircte o culoare diferită de marcare a fontului ori se poate alege o singură culoare pentru toate caracterele pe care le dorim a fi marcate

De reţinut că marcarea se face prin colorarea fontului şi nu a fundalului

Nu se pot face recomandări pentru activarea sau neactivarea opţiunii Pentru unii utilizatori marcarea poate fi benefică prin scoaterea icircn evidenţă a unor

caractere ce trebuie urmărite de exemplu prin marcare se poate urmări mai uşor existenţa perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoască ambele ghilimele care formează perechea ci numai unele dintre ghilimele fie ele de deschodere sau icircnchidere

Pentru alţi utilizatori marcarea poate să deranjeze să atragă mai mult atenţia asupra caracterelor marcate sărind peste alte tipuri de erori ce trebuiesc corectate

După corectarea cacirctorva volume fiecare utilizator va şti sigur care dintre variante i se potriveşte cel mai bine care variantă [marcarea sau nonmarcarea] i se pare mai comodă

Recomand ca şi la această opţiune să se facă ceea ce am numit Test 100 pentru a stabili care metodă de lucru mare mai comodă

6 ŞTERGERE CARACTERE

ndash Eliminare Cratimă semiindependentă [Cratimă_spaţiu şi Spaţiu_Cratimă] ndash Eliminare Apostrof independent [Spaţiu_ Apostrof _Spaţiurdquo] ndash Eliminare Artefacte cărţi obişnuite [bdquoSpaţiu_Artefact_Spaţiurdquo] ndash Eliminare Artefacte cărţi tehnice [bdquoSpaţiu_Artefact_Spaţiurdquo]

Opţiunea este oarecum similară cu opţiunea precedentă doar că de data aceasta anumite caractere [cunoscute şi sub numele de artefacte sau răgălii] sunt şterse şi nu doar marcate

De asemenea numele opţiunii este suficient de sugestiv iar fereastra de setări este foarte clară astfel că nu va fi nevoie de prea multe explicaţii privind această opţiune

Şi nici la această opţiune nu există o recomndare clară privind activarea sau nonactivarea opţiunii

Este important de reţinut că există două cauze ale apariţiei icircn text a acestor răgălii ndash Prima cauză unele dintre răgălii apar icircn text fără să existe un caracter asemănător icircn

original aceste răgălii apar ca urmare a unor defecţiuni la scanare ori ca urmare a unor mici

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 33: Explicatii Ocr Plus

pete pe pagina scanată sau defecţiuni ale texturii hacircrtiei pe care a fost tipărită cartea Icircntr-un mod sau altul automat sau manual ele vor fi şterse deoarece nu există icircn text

ndash A doua cauză o altă categorie de răgălii apar icircn text icircn locul unor alte caractere asemănătoare de exemplu caracterul lt j gt poate icircnlocui caracterul lt gt caracterul lt gt poate icircnlocui caracterul lt z gt caracterul lt $ gt poate icircnlocui caracterul lt ş gt etc etc Icircn astfel de situaţii este mai uşor de observat locul unde trebuie făcută corectura manuală arunci cacircnd se păstrează caracterul răgălie icircn locul respectiv şi se poate sări mai uşor peste eroare dacă acel caracter a fost şters

Ca şi la opţiunea precedentă propun executarea Test 100 pentru ca fiecare utilizator să poată alege varianta de lucru optimă activarea activarea parţială sau nonactivarea opţiunii

7 Icircnlocuieşte toate liniile de pauză cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Să icircncepem prin a face cacircteva comentarii icircn legătură cu Linia de pauză Prin Linie de pauză conform DOOM 22010 se icircnţelege

125 Linia de pauză [ndash] Este utilizată ca semn ortografic numai icircn scrierea unor cuvinte compuse complexe (cu

caracter mai mult sau mai puţin ocazional) care cuprind cel puţin un cuvacircnt compus scris cu cratimă americanondashsud-coreean nordndashnord-vest sud-estndashnord-vest

Icircn această situaţie nu este precedată sau urmată de blanc

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 34: Explicatii Ocr Plus

Icircn nota de subsol nr 39 de lapagina XLIII se aratăLinia de pauză este Plasată aproximativ la jumătatea icircnălţimii racircndului Numită şi pauză Este mai lungă decacirct cratima Este şi semn de punctuaţie

Icircn realitate icircn sensul acestei opţiuni nu este vorba de Linia de pauză tratată de DOOM 2 ci de o altă liniuţă cunoscută şi sub numele de Linie explicativă sau Cratima mare Această linie este precedată şi urmată de blanc [spaţiu] şi se foloseşte icircn următoarele două situaţii

Linia explicativă care marcheză [separă] comentariul autorului de vorbele unui personaj icircntr-un dialog exemplu

mdash De altfel ndash adăugă ea coboracircnd vocea ndash va fi un prieten icircn plus la caz de nevoie mdash Nu sunt un om icircnvăţat ndash adăugă el ndash şi nu mi-e ruşine s-o mărturisesc Comentariu autorului icircntr-un dialog poate fi marcat prin icircncadrarea icircntre linii explicative sau

prin icircncadrarea icircntre virgule nu se folosesc icircn acelaşi text ambele variante

Linia explicativă care introduce un comentariu o explicaţie şi care poate fi icircnlocuită cu paranteze ca icircn exemplul următor

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna ndash ca şi cum ar fi anunţat că cedează ndash rosti icircn engleză parcă vorbind cu sine icircnsuşi

această frază ar putea fi scrisă şi icircn varianta icircn care se folosesc paranteze icircn locul liniilor explicative astfel

Tocmai atunci vacircnătorul făcacircnd un gest cu macircna (ca şi cum ar fi anunţat că cedează ) rosti icircn engleză parcă vorbind cu sine icircnsuşi

Recomand ca liniile de pauză să fie marcate cu EnDash aducacircnd următoarele argumente ndash argumentul 1 ndash DOOM 22010 spune că Linia de pauză Este mai lungă decacirct cratima ndash argumentul 2 ndash icircn Word atunci cacircnd facem editare şi introducem linia explicativă folosind

cratima icircncadrată de spaţiu editorul o transformă automat icircn EnDash ndash argumentul 3 ndash argument estetic EnDash are lăţimea unui caracter obişnuit şi arată elegant

ca linie de pauză timp icircn care cratima este prea mică şi se pot produce confuzii iar EmDash icircncadrat de spaţii este neelegant şi mult prea mare Este adevărat că icircn limba engleză linia de pauză este redată prin Emdash dar icircn acest caz linia este lipită de cuvintele alăturate

ndash argumentul 4 ndash nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauză deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

8 Icircnlocuieşte toate liniile de dialog cu

ndash EmDash ndash EnDash ndash Horizontal Bar

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 35: Explicatii Ocr Plus

Recomand ca liniile de dialog să fie marcate cu EmDash aducacircnd următoarele argumente ndash argumentul 1 ndash Prin prelucrările făcute de opţiunea 22 Corectare linii de pauză şi linii de

dialog teoretic toate liniile de dialog sunt deja convertite icircn Emdash Păstrarea icircn continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opţiunii timp icircn care modificarea liniilor de dialog cu alt caracter măreşte timpul de rulare deoarece uneori sunt mii de linii de dialog icircntr-un text şi programul trebuie să realizeze căutarea şi modificarea fiecărei linii icircn parte

ndash argumentul 2 ndash Linia de dialog nu poate fi redată prin cratimă acest lucru ar fi incorect din toate punctele de vedere şi este complet inestetic

ndash argumentul 3 ndash Linia de dialog nu poate fi redată prin EnDash deoarece linia de dialog trebuie să fie diferită şi mai mare decacirct linia de pauză

ndash argumentul 4 ndash Deşi liniile de dialog de tip Horizontal Bar arată foarte elegant linia de dialog nu poate fi redată prin Horizontal Bar deoarece pe multe eReadere dar şi icircn unele editoare caracterul nu este redat corespunzător ci este icircnlocuit cu semnul icircntrebării sau cu pătrăţel

ndash argumentul 5 ndash icircn regulile tipografice se arată că linia de dialog trebuie să aibă lăţimea a două caractere obişnuite liniile care icircndeplinesc această condiţie sunt Horizontal Bar şi EmDash am explicat mai sus de ce nu se poate folosi Horizontal Bar deci singura linie care icircndeplineşte toate condiţiile este EmDash

Părerea mea personală este că nu trebuie să ne facem mari probleme icircn alegerea tipului de liniuţă icircn această etapă a corecturii deoarece liniile de dialog ca şi liniile de pauză pot fi oricacircnd icircnlocuite prin comenzi foarte simple de FindampReplace icircn Word sau alt editor

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash

Page 36: Explicatii Ocr Plus

Stabilirea tipului de linie de dialog ca şi icircnlocuirea spaţiului de după linia de dialog cu spaţiu neseparator ţin mai degrabă de formatarea finală a unui document corectat decacirct de precorectura unui OCR

Notă Dacă dorim să printăm pe hacircrtie un text [o carte] care conţine linii de dialog atunci recomand ca liniile de dialog să fie icircnlocuite cu Horizontal Bar deoarece textul tipărit astfel arată elegant Dacă documentul nu este destinat tipăririi ci folosirii şisau prelucrării şi corectării de alte persoane atunci vom folosi EmDash