tutorial autocorect ocr plus [a4.v1]

Upload: xannt

Post on 09-Jan-2016

151 views

Category:

Documents


7 download

DESCRIPTION

tut

TRANSCRIPT

  • TUTORIAL "AutoCorect OCR Plus"realizat dup topicul AutoCorect OCR_Plus - Instructiuni de folosire

    S stabilim care este asemnarea i diferena dintre programul AutoCorect STANDARD i AutoCorect OCR Plus.

    AutoCorect OCR Plus este practic programul AutoCorect STANDARD la care s-au adugat urmtoarele 3 elemente:

    un meniu n plus, numit "OCR Plus"; meniul OCR Plus a fost inserat ntre meniul "Inserare" i meniul "Instrumente, astfel c n acest moment ocup poziia a patra de la stnga la dreapta.

    o fereastr nou pentru Setri - Punctuaie - OCR Plus. Alturi de ferestrele "Configurare - Punctuaie - Document" i "Configurare - Punctuaie - Subtitrri" care sunt implementate n AC Standard, a fost creat o nou fereastr pentru setarea punctuaiei care ruleaz n meniul OCR Plus.

    o comand rapid [scurttur] n coloana de comenzi rapide din stnga ferestrei principale a programului.

    Este vorba de ultima comand rapid, numit "OCR", aflat pe poziia 5.

    Foarte important: primele patru comenzi rapide din coloana din stnga ferestrei principale nu trebuie folosite pentru corectarea OCR-urilor.

    Ele sunt comenzi rapide pentru corectarea documentelor standard i nu a OCR.

  • Dac la programul AutoCorect OCR Plus ignorm existena meniului OCR Plus, atunci nseamn c avem programul AutoCorect STANDARD.

    Opiunile speciale implementate pentru corectarea fiierelor OCR se pot rula numai din meniul OCR Plus. O rulare automat a meniului OCR Plus se poate face i acionnd asupra ultimei comenzi rapide, aa cum se vede n imaginea de mai sus.

    CONFIGURARE PUNCTUAIE OCR_Plus

    nainte de a face prelucrri n AutoCorect este necesar s stabilim setrile Punctuaiei. Acest lucru se poate face nainte de a ncrca un document n AutoCorect, dar se poate realiza i cu un document ncrcat, fr s afecteze aceste setri.

    Este important de reinut c setrile punctuaiei [ca de altfel i setrile din meniul OCR_Plus] sunt salvate i pstrate de ctre AutoCorect i dup nchiderea programului, pn la o nou modificare a setrilor sau la o nou instalare a AutoCorect.

    n concluzie aceste setri sunt valabile oricnd vom folosi AutoCorect; ele se fac o singur dat i nu la fiecare deschidere a programului.

    Cum procedm? Dup deschiderea programului AutoCorect, din meniul principal, accesm opiunea Instrumente > Configurare ca n prima imagine i se va deschide fereastra Configurare General. Accesm tabul-icon Punctuaie, apoi tabul OCR Plus. Fereastra Configurare Punctuaie OCR Plus are n acest moment 5 taburi componente: Conversii Punctuaia de baz Majuscul Diverse Sugestii S le discutm pe rnd.

  • Conversii Aici nu este mult de discutat. Fereastra de setare este mai mult dect sugestiv. Opiunea va face conversiile menionate n fereastr. Ea trebuie activat n mod obligatoriu de ctre toi utilizatorii.

    Punctuaia de baz Aici sunt dou setri: prima este obligatorie i cea de-a doua se activeaz n funcie de preferinele utilizatorului. Aplic principiile de baz ale punctuaiei trebuie activat n mod obligatoriu. Ca i la tabul precedent i aici sunt menionate toate modificrile pe care le va faceopiunea. Practic opiunea nu face altceva dect s aplice regulile de scriere a semnelor de punctuaie i s adauge sau s tearg spaii n faa sau dup fiecare semn de punctuaie, aa cum cer regulile ortografice ale limbii romne. Creaz list de sugestii Dac vom activa aceast setare, pe timpul rulrii Punctuaiei, programul va crea o list cu propuneri de corectare a punctuaiei; aceast list cuprinde propuneri ale programului, dar a cror rezolvare depinde de utilizator; utilizatorul va putea s verifice fiecare propunere i s accepte sau nu modificarea propus de program. Dac utilizatorul va dori s fac doar o curare automat a OCR-ului, fr alte corecturi, atunci nu trebuie activat aceast setare.

  • Majuscul Aici este mai mult de discutat. Sunt trei situaii n care se face majuscularea: La nceput de dialog La nceput de paragraf La nceput de fraz Prima setare Majuscul la nceput de dialog [inclusiv dialog cu ghilimele] trebuie activat n mod obligatoriu. Rularea opiunii va corecta toate literele mici la nceput de dialog fie el cu ghilimele sau nu. Rularea opiunii nu produce modificri nedorite. Al doilea pachet de opiuni se refer la corectarea majusculelor la nceput de paragraf i necesit cteva explicaii n plus. Mai nti s definim paragraful: Iat o definiie scurt din dicionare: paragraful este Pasaj al unei lucrri desprit de restul textului printr-un aliniat nou (i printr-un semn grafic special); fragment (unitar) dintr-un text care cuprinde o anumit idee. Fragment mic al unui capitol, al unui discurs, al unui articol de lege etc. cuprins ntr-un alineat. Pentru computer, pentru editoarele de text, paragraful este ceva mai mult de att. Din punct de vedere al logicii editoarelor, paragraful cuprinde orice text/nontext cuprins ntre dou comenzi Enter. Pe editor nu-l intereseaz dac ntre cele dou comenzi Enter se afl un paragraf care are neles, dac sunt una sau mai multe cifre, ori rglii sau dac ntre dou Enter nu se afl nimic, nici mcar un spaiu. Editorul va considera c acela este un paragraf. Acestea fiind spuse, s ncercm s analizm imaginea urmtoare i s privim atent paragraful care ncepe la sfritul paginii 58 i se termin la nceputul paginii 59. Acest paragraf ar fi corect n forma urmtoare: Lemn umed rspunse rzboinicul, tot att de calm ca un pedagog care-i face o demonstraie aritmetic elevului su ncurcat. Prea mult umezeal, prea mult fum; prea mult ap fum negru.

    Ce constatm? Paragraful real din punct de vedere literar i a logicii limbajului, ncepe la sfrit de pagin i nu ncape n totalitate pe pagina respectiv, ci se continu pe pagina 59. Atenie la ultimul cuvnt scris pe pagina 58: cuvntul elevu-, este de fapt cuvntul elevului, desprit la capt [sfrit] de rnd, sfrit de rnd care, n acest caz, corespunde i cu sfrit de pagin. Primul cuvnt de pe pagina 59 lui nici nu este un cuvnt real, ci este secvena final a cuvntul elevului.

  • S privim mai departe: cele dou pri ale paragrafului real sunt desprite de 4 paragrafe digitale: paragraf 1 nota de subsol 1 Colib de piei-roii cu font rou n imagine; paragraf 2 nota de subsol 2 Oameni albi cu font rou n imagine; paragraf 3 numr de pagin numrul 58 pe fundal bleu paragraf 4 paragraf [rnd] gol, marcat cu | Din pcate, calculatorul a majusculat secvena de cuvnt lui cu care ncepe pagina,transformnd-o n cuvntul Lui, calculatorul considernd c e vorba de un paragraf nou.

    Acum s ncercm s definim Paragraful ntreg i Paragraful ntrerupt n sensul folosit la aceste setri. Paragraful ntreg este un paragraf normal, un paragraf obinuit, aa cum este definit n dicionare, care urmeaz dup un paragraf format din caractere de tip liter, mai lung de 7 caractere i care se termin cu semne de punctuaie corecte. Paragraful ntrerupt este acel paragraf care urmeaz dup un paragraf gol [deci un rnd gol] sau dup un paragraf care conine numai cifre [cum ar fi cazul numerelorde pagin].

    n sfrit, acum revenim la setrile privind majuscularea paragrafelor. Subliniez c din cele 3 setri posibile ale majusculrii paragrafului se poate activa doar UNA SINGUR, la alegere.

    S le analizm pe rnd:

    Majuscul la nceput de paragraf [orice liter orice paragraf] Aceast opiune va majuscula orice liter la toate paragrafele, indiferent dac ele urmeaz dup un paragraf normal, ori dup unul gol sau dup unul format din cifre, dac este un Paragraf ntreg sau un Paragraf ntrerupt Atenie! Activnd aceast opiune se vor majuscula i paragrafele care ncep la sfrit de pagin i se continu la nceputul paginii urmtoare, fiind ntrerupt de rndul gol dintre pagini sau de numrul de pagin, aa cum s-a ntmplat n exemplul din imaginea de mai sus. Recomand ca aceast opiune s fie activat doar n cazurile n care utilizatorul nu a pstrat [sau a ters] numerele de pagin i nici nu are marcat trecerea de la o pagin la alta cu rnd gol i, de asemenea, a corectat desprirea paragrafelor cu opiunea 1.5 Repararea rndurilor rupte.

    Majuscul la nceput de paragraf [numai paragraf ntreg] Aceast setare va permite ca majuscularea s se fac la toate literele cu care ncep paragrafele, dar doar la paragrafele care curg unul dup altul, la paragrafele ntregi. Efectul secundar al opiunii este acela c dac ntre titlul capitolului i primul paragraf aven un rnd gol, programul nu va majuscula acest paragraf. Recomand activarea acestei opiuni.

    Majuscul la nceput de paragraf [numai litera paragraf ntreg] Aceast setare va permite doar majuscularea literei > i numai n cazul paragrafelor ntregi. Practic aceasta seamn cu setarea a doua, doar c nu caut toate

  • literele mici la nceput de paragraf ntreg, ci doar litera .

    Not: n general, Abbyy face puine confuzii ntre literele mici i literele mari, faptpentru care nu sunt multe cazuri de nceput de paragraf care vor fi scrise cu litere mici, mai ales dac s-a fcut un antrenament suficient al Abbyy cu caracterele [adic minim 5-6 pagini]. Singura problem major a lui Abbyy este aceea c nu recunoate niciodat pentrulimba romn litera [ majuscul], ci o va scrie totdeauna cu [ minuscul]. Practic aceasta, problema lui , este principala problem de rezolvat la majusculare. Avantajul setrii acesteia fa de setarea a doua este c majuscularea va rula mai repede, avnd mai puine cutri de realizat; dezavantajul este c pot exista i alte litere scrise cu minuscul la nceput de paragraf, pe care programul nu le va corecta. n funcie de aspectul textului, utilizatorul ca avea posibilitatea s aleag ntre setarea 2 sau 3, ori chiar setarea 1.

    Tot la tabul "Majuscul", mai sunt de discutat setrile care se refer la "Majuscul la nceput de fraz." Redau n imaginea de mai jos un fragment din fereastra se setare, spre a reaminti cum arat aceste setri.

    Prima setare, Majuscul la nceput de fraz doar dup punct urmat de spaiu, este setarea pe care o recomand. Rularea opiunii de majusculare astfel setat nu va face erori de majusculare [nu va majuscula i acolo unde nu trebuie] dect n situaia n care Abbyy a pus n mod eronat un punct n locul unei virgule. Subliniez c punctele de suspensie, n acest moment, sunt deja convertite n Elipsis, astfel c opiunea nu va majuscula propoziiile care ncep dup puncte de suspensie. Avantaje i dezavantaje ale setrii. Rularea punctuaiei astfel setate nu va produce erori de majusculare n plus, adic nu va majuscula situaii n care trebuie pstrat minuscula. Dezavantajul este c pot rmne nceputuri de fraz care urmeaz dup ? !i elipsis, ce vor trebui corectate manual.

    Cea de-a doua setare, Majuscul la nceput de fraz dup ! i ? urmat de spaiu, are dezavantajul c poate face majusculri n plus fa de situaiile corecte. Aceast opiune va face majuscularea cazurilor de dialog francez, astfel c dac va fi activat, n mod obligatoriu este necesar i cea de-a treia opiune de la tabul Sugestii sau opiunea special din meniul OCR_Plus 4.5. Convertire majuscul n minuscul n dialog francez.

    Niciuna dintre cele dou setri nu este perfect, fiecare dintre ele are avantaje i dezavantaje. Personal prefer prima opiune, pentru simplul motiv c aa m-am obinuit s lucrez.

    Diverse Cred c numele acestor setri sunt suficient de sugestive i nu mai necesit explicaii. Recomand activarea tuturor setrilor.

  • Sugestii

    Pentru c personal nu am folosit aceste sugestii, am nevoie de un pic de timp pentru documentarea privind setarea Sugereaz tipul corect de liniu. Setarea a doua nu cred c necesit explicaii, fiind suficient de sugestiv. Cea de-a treia setare, privind dialogul francez, se activeaz dup cum am mai spus, doar dac se activeaz opiunea Majuscul la nceput de fraz dup ! i ? urmat de spaiu. Aceste dou setri i opiuni funcioneaz n pereche: ori activate ambele, ori dezactivate.

    Cred c cele de mai sus sunt suficient de detaliate ori, poate, enervant de detaliate. Dac a fost mai greu la citit... mi cer scuze!... dar s tii c nici la scris n-a fost foarte uor.

    Probleme constatate de useri la rularea Meniului OCR_Plus

    "cind rules functiile de la OCR plus imi spune ca "nu poate deschide" urmatoarele dictionare CO_DE, L1, S1, Midp, Dlp, Df. Am verificat si dictionarele sint la locul lor."

    Mai nti trebuie stabilit dac ruleaz vreunul dintre dicionare; dac nu ruleaz niciunul atunci pot fi urmtoarele cauze: - dicionarele nu au fost instalate n folderul corect; - dicionarele nu au numele reactualizate i ruleaz dicionare cu nume vechi. Dicionarelor iniiale au fost redenumite, adugndu-se la toate dicionarele particula CO_ pentru AutoCorect Contemporan sau CL_ pentru AutoCorect Clasic. E bine de verificat pe baza anexelor Tutorialului din prima postare.

    Prerea mea este c e posibil s avem o problem cu calea de cutare a dicionarelor.

    Foarte important: Exist n computer dou foldere numite "Dictionare" Nu trebuie fcut confuzie ntre ele.

  • Unul dintre ele se gsete n Program Files, unde AutoCorect se instaleaz: C:\Program Files\AutoCorect\ Dictionare n acest folder "Dictionare" AutoCorect i instaleaz dictionarele sale de limba romn, necesare funcionrii. Aceste dicionare n-au nicio legtur cu cele ce ruleazn Meniul OCR_Plus.

    Mai exist un folder "Dictionare" si este cel care ne intereseaz si pe care Autoorect l creaz la prima lui rulare. Acest al doilea folder, cel ce ne intereseaz, are urmtoarea locaie: n Windows XP: C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Clasic\ Dictionare pentru versiunea AutoCorect Clasic.sau C:\Documents and Settings\NUME_USER\Application Data\AutoCorect Contemporan\ Dictionare pt. versiunea AutoCorect Contemporan.

    n Windows 7, Windows Vista: C:\Users\NUME_USER\AppData\Roaming\AutoCorect Clasic \Dictionare pentru versiunea AutoCorect Clasic.sau C:\Users\NUME_USER\AppData\Roaming\AutoCorect Contemporan\ Dictionare pentru versiunea AutoCorect Contemporan.

    n aceste foldere numite "Dictionare" se creaz folderul "OCR_DIC" i aici se copiaz dicionarele ce ruleaz cu Meniul OCR_Plus.

    RULAREA AUTOMAT A MENIULUI OCR_Plus

    GENERALITI

    Meniul este destul de complex i o discuie despre rularea lui este dificil de abordat. Am ales varianta n care s prezentm mai nti fiecare pachet de opiuni n parte, deoarece rularea cronologic mi se pare mai dificil de explicat.

    Mai nti s stabilim cteva aspecte:

    a. Programul AutoCorect OCR_Plus poate fi folosit n cel puin dou variante: CORECTURA sau varianta LUNG este varianta de lucru care permite o corectur complet, n care se ruleaz att opiunile din meniul OCR_Plus ct i alte opiuni cum ar fi Ortografie i editri care permit o corectur complex, inclusiv corectura cap-coad prin citire. CURAREA sau varianta SCURT se folosete pentru o curare rapid a OCR-ului, dup care utilizatorul va continua corectura prin citire-cap coad n alt

  • editor de text. Aceasta este varianta pe care o vom discuta n continuare.

    b. Timpul de rulare a meniului OCR_Plus. Timpul depinde de mrimea documentului de corectat, ceea ce este normal, dar trebuie menionat c dac avem un document de 200 de pagini i unul de 2 200 = 400 pagini, timpul necesar pentru documentul mai mare nu este numai de 2 ori mai mare, ci de aproximativ 2 2, adic de vreo patru ori. Dac avem cri mari de curat este bine s le mprim n cte dou sau trei pride circa 200 de pagini. Din teste, rezult c mrimea optim este n jurul a 200 de pagini. Programul pstreaz setrile, astfel c toate prile vor fi curate n acelai mod.

    c. Aa cum am menionat i altdat, programul AC nu face totul i nici nu e necesar s fac totul. Practic el este un instrument care ne ajut s curm grosul greelilor. Adevrata curenie adevrata corectur o face omul. Utilizatorul poate stabili ce anume opiuni ruleaz i ce nu ruleaz, alegnd opiunile care-l avantajeaz i, de asemenea, el va putea mbunti programul prin adugarea de noi dicionare cu nregistrri specifice crilor pe care le corecteaz. Aceste dicionaresuplimentare le va putea aduga, dup cum vom vedea, la opiunea 11.

  • Din meniul principal, alegem OCR_Plus > Ruleaz toate opiunile, ca n prima imagine. Programul va deschide fereastra cu lista de opiuni, aa cum se vede n cea de-a doua imagine. n aceast fereastr vom bifa [activa] opiunile pe care vrem s le rulm. La opiunile care sunt prevzute cu Opiuni de setare va trebui s verificm dac setrile default sunt cele care ne convin sau le vom modifica dup dorin. Este important de reinut c aceste setri i activarea/nonactivarea opiunilor se pstreaz pn la o eventual modificare sau o nou instalare de executabil. n concluzie, setrile se fac o singir dat pentru mai multe utilizri ale programului. Dup stabilirea tuturor setrilor se apas butonul Ruleaz.

    Menionaz c ordinea de rulare a opiunilor a fost stabilit dup mai multe testri i cea default este considerat optim. Cu toate acestea, opiunile pot fi mutate n sus i n jos, astfel c ordinea lor se poate schimba, dac utilizatorul va voi s schimbe o anumit ordine de rulare a opiunilor.

    Pentru a putea hotr care dintre opiuni s fie activate i care nu, precum i care sunt setrile necesare, vom proceda la explicarea n detaliu a fiecrei opiuni. Pentru ca unii utilizatori s nu fie tentai s renune la unele opiuni, fr a cunoate foarte bine ce anume modificri fac acele opiuni, voi explica avantajele folosirii fiecreia n parte, dar voi insista suficient i pe eventualele dezavantaje ale rulrii opiunii.

    Legea nr.1: AutoCorect PCR_Plus face o precorectur i nu o corectur textului. Dup rularea AutoCorect OCR_Plus ESTE OBLIGATORIE executarea corecturii manuale prin citire cap-coad a textului. Dicionarele pe care programul le ruleaz pentru executarea modificrilor realizeaz foarte multe nlocuiri corecte, dar nu este exclus ca n text s fac i nlocuiri eronate, chiar dac acestea sunt n numr mic pn la extrem de mic. La editarea dicionarelor s-a mers pe principiul ca un dicionar s ajute ct mai mult pe cel ce corecteaz manual; cu alte cuvinte, dac o nregistrare face foarte multe nlocuiri corecte, dar din cnd n cnd produce i modificri incorecte, aceast nregistrare a fost fcut. Practic s-a avut n vederea frecvena apariiei ntr-un text a unui anumit cuvnt ntr-o anumit form. Exemplu: exist n limba romn, att cuvntul < n > cu o frecven foarte-foarte mare n orice text, dar exist i cuvntul < in > ce are o frecven foarte mic. Am ales s facem modificarea in >> n, iar cnd corectorul gsete n text c este vorba decuvntul < in = plant tehnic> - atunci corectorul face modificarea manual. Sunt multe alte exemple. Legea nr.2: vom activa TOATE acele opiuni pe care le considerm necesare. Nu este indicat s facem corecturi manuale dac ele se pot face automat i mult mai rapid n AutoCorect. Legea nr.3: vom activa DOAR acele opiuni pe care le considerm necesare. Nu este indicat s aglomerm programul cu sarcini pe care nu le considerm utile. Legea nr.4: Legea 1 este OBLIGATORIE TOTDEAUNA, ORIUNDE i pentru ORICE TEXT; Cine procedeaz altfel, are anse sigure S STRICE un text deja corectat. Din pcate sunt civa "istei" care au procedat astfel, realiznd o versiune "superioar" la o calitate "inferioar".

  • Legile 2 i 3 pot fi complet ignorate, da' e pcat.

    1. CONVERTIRI PRELIMINARE

    1.1. Conversie dialog bullets n dialog text 1.2. Setare text la font i mrime unic 1.3. Eliminare tab i spaii multiple 1.4. Eliminare spaii la nceput de paragraf

    1.5. Repararea rndurilor rupte 1.6. Rupere rnduri care ncep cu dialog aflate n interiorul paragrafului.

    1.1. Conversie dialog bullets n dialog text Opiunea, aa cum sugereaz i numele, transform liniile de dialog de tip bullets n linii de dialog de tip text. Pstrarea ntr-un text a liniilor de dialog de tip buletts poate duce la pierderea liniilor de dialog, din neatenie sau dac utilizatorul dorete s fac reformatarea textului. Opiunea nu necesit multe explicaii. Va fi ACTIVAT obligatoriu. Nu produce efecte secundare nedorite. Recomand ca aceast opiune s fie rulat separat si la terminarea corecturii, deoarece pe timpul corecturii pot s mai apar n mod accidental situaii n care linii noi de dialog apar ca buletts.

    1.2. Setare text la font i mrime unic Un OCR poate fi salvat de Abbyy n diferite formate: doc, rtf, pdf, htm, lit etc... Recomand o singur variant i anume: RTF. La rndul lui i RTF-ul poate fi salvat n mai multe variante de formatare: RTF Exact copy RTF Editable copy RTF Formatted text

  • RTF Plain text Primele dou ["RTF Exact copy" i "RTF Editable copy"] pot fi acceptate doardac OCR-ul extras va fi printat sau citit fr a fi corectat. Corectura unor astfel de formatri necesit eforturi suplimentare mari i nejustificate, deoarece la aceste formatri apar zone de Text Box i n principiu tot textul este inserat n Frame-uri, cte un Frame pentru fiecare suprafa de text Abbyy [de reamintit c pe o pagin de carte sunt mai multe suprafee de recunoatere a Abbyy, deci fiecare pagin va avea cel puin dou-trei Frame]. Pentru a realiza corectura va trebui ca mai nti s fie terse aceste Frame i ncadrri de la Text Box.

    Dac la o carte nu ne intereseaz pstrarea formatrii italice [cursive] a zonelor scrise n acest mod sau, pur i simplu cartea este scris doar cu font drept [regular], atunci putem salva n varianta cea mai simpl, "RTF Plain text" i vom avea text cu acelai font i la aceeai mrime.

    n principiu, varianta optim de salvare a unui text OCR n Abbyy este RTF - Formatted text. Aceast variant salveaz toate formatrile de text, dar fr ncadrri de tip Box Text sau Frame. Dezavantajul este c Abbyy va folosi mai multe tipuri de fonturi, o mulime de valori pentru mrimea textului, de la 4-5 puncte tipografice pn la valori foarte mari [chiar i 150 puncte pentru cte un caracter singular, recunoscut eronat], precum i o serie de formatri false ale textului. Din acest motiv este necesar o formatare a textului la font i mrime unic.

    Aceast opiune este una dintre cele mai complexe pe care le conine meniul OCR_Plus. Setrile sunt de asemenea complexe, astfel c vom insista mai mult pe fiecare grup de setri.

    Setare font Dei fereastra de setare este suficient de sugestiv, sunt necesare cteva explicaii. Nume font i Mrime font. Vom stabili fontul i mrimea ca n orice editor. Personal folosesc "Bookman Old Style" la mrimea 11, dar pot fi folosite i alte fonturi i mrimi, conform obinuinei. Recomand fontul "Droid Serif"; este un font foarte uor de citit, n special pe Readere. culoare setarea poate rmne inactiv; opional se poate activa i stabili culoarea [n principiu la cri se folosete culoarea Black i nu Automatic]. Recomandare personal: setare inactiv. "B + I = I" aceast setare va nlocui toate bucile de text formatate bold+italic n font italic simplu, neboldat. De regul, n crile de beletristic nu este folosit formatarea Bold+Italic, astfel c zonele de text formatate astfel sunt de cele mai multe ori nicte simple erori Abbyy. Recomandare personal: setare ACTIV.

  • "B >> N" aceast setare va nlocui toate bucile de text formatate cu Bold simplu n font drept simplu, neboldat. La crile de beletristic este folosit formatarea Bold doar pentru numele capitolelor, dar Abbyy va marca astfel toate zonele de text pe care nu este sigur c le-a recunoscut corect, n special cuvintele careconin litera O i L mic lng cratim, deoarece nu va ti sigur dac acolo se afl literele O sau L mic, ori cifrele 0 sau 1. Recomandare personal: setare ACTIV.

    Resetare zoom 100% la alegerea utilizatorului. Recomandare personal: setare inactiv.

    Setare paragraf Aceste setri nu implic prea multe discuii. Se pot alege orice valori, dar le recomand pe urmtoarele: Alineatul: are valori zero n marginea stng i dreapt a paginii, iar primul rnd ncepe mai din interior cu 0,5 cm [0,2 inches] Spaiere rnduri = 1; textul este scris "la un rnd". Spaiere caractere = 0. Spaiu dintre dou litere este un spaiu normal, adic nu este nici condensat, nici expandat.

    Spaiu paragraf: nainte = 0. Dup = 0. Spaiul dintre paragrafe este unul normal, ca i cel dintre rnduri, adic distana dintre dou paragrafe este aceai cu ceadintre dou rnduri ale aceluiai paragraf, deci tot "la un rnd" Aliniere paragraf = stnga-dreapta sau, ceea ce cunoatem ca "Justify".

    Setare pagin La setarea paginii lucrurile sunt foarte simple i se procedeaz ca la setarea paginiin orice editor. Recomand folosirea valorilor din imagine: pagina format A5 cu

  • marginile de 1 cm, iar Antetul i Subsolul de 0,5 cm. Menionez c: 0,5 cm 0,2 inches, iar 1 cm 0,39 inches Sunt foarte importante setrile de font i cele de paragraf, dar poate rmne neactivat opiunea de setare a paginii. Setarea paginii se poate face atunci cnd ncepe corectarea propriu-zis prin citire-cap coad a textului.

    Dup ce am definitivat setrile de font, paragraf i pagin, acionm butonul "Seteaz" pentru a salva setrile i a iei din fereastra de setare.

    1.3. Eliminare tab i spaii multiple Opiunea convertete toate taburile n spaii simple i, de asemenea convertete toate spaiile multiple ntr-un singur spaiu, astfel c ntre cuvinte va exista n tot textul cte un singur spaiu. Recomandare personal: setare ACTIV.

    1.4. Eliminare spaii la nceput de paragraf Opiunea elimin spaiile existente la nceput de paragraf. Este necesar eliminarea spaiilor aflate la nceput de paragraf, deoarece opiunile de corectare care ruleaz la pachetele urmtoare nu pot funciona corect sau nu pot funciona deloc dac exist astfel de spaii la nceput de paragraf. Utilizatorul de Word sau alte editoare de text, care se respect, nu va alinia nceputul de paragtaf prin adugare de spaii sau taburi n faa primului rnd ci va setaparagraful astfel nct prima linie s fie scris mai din interior. Recomandare personal: setare ACTIV.

    1.5. Reparare rnduri rupte S-a ales formularea "rnduri rupte", ca fiind mai sugestiv, dar opiunea poate fi numit i "repararea paragrafelor rupte". ntr-un OCR pot aprea situaii n care unele dintre paragrafe sunt "rupte". Cauzele apariiei paragrafelor rupte sunt mai multe, printre care: - o simpl eroare de interpretare a Abbyy, dei setrile au fost fcute corect. - setare greit n Abbyy [a fost activat opiunea "Keep line breaks" din Tools

  • -> Options -> 3. Save -> Text settings]. - copiere direct cu Copy&Paste dintr-un fiier de alt tip: pdf, htm etc...

    Iat un exemplu de pagin rezultat din Abbyy care a avut setarea "Keep line breaks" activ - Vezi Img.1. Se observ c toate rndurile au devenit "un fel de" paragrafe. n a doua imagine se vd i codurile de sfrit de rnd [semnul sub form de sgeat orientat n jos] i codurile de sfrit de paragraf [cel sub form de P ntors] - Vezi Img.2. n cazul n care "ruperea paragrafelor ar fi avut un alt motiv dect setarea din Abbyy, la sfritul rndurilor ar fi putut aprea semnul sfrit de paragraf n locul semnului sfrit de rnd. Iat cum apare pagina dup rularea opiunii 1.5. Reparare rnduri rupte - Vezi Img.3.

    Este important de menionat c opiunea are implementate opiuni de setare, aa cum se vede n imaginea de mai jos.

    Recomandri privind setrile opiunii: Din experiena personal rezult c se pot activa toate variantele fr probleme la crile de beletristic. n cazul crilor de specialitate [drept, economie, medicin, tehnic etc.] se va evita activarea opiunilor nr. 5 i 10 sau se vor folosi cu mare atenie. n cazul unor astfel de cri este normal s existe paragraf corect dup punct i virgul, n cazul n care este vorba despre o enumerare. Comentarii despre opiune. Opiunea rezolv un numr relativ de erori n cazul unui OCR rezultat dintr-o extragere Abbyy cu setri corecte. Efectele negative ale opiunii sunt limitate sau inexistente. Singura meniunea este cea privind setrile 5 i 10 n cazul unor cri cu structur diferit de literatura beletristic. n cazul textului obinut cu Copy&Paste din formate speciale [pdf, htm etc] opiunea va scurta timpul i efortul coreciei manuale de la cteva ore la unul-dou minute. Recomandare opiune: setare ACTIV. 1.6. Rupere rnduri care ncep cu dialog aflate n interiorul paragrafului Sunt cazuri n care Abbyy "lipete" n mod eronat dou paragrafe sau mai multe paragrafe. Cazurile sunt mai dese n cazul paragrafelor obinuite, dar exist i cazuri

  • n care un paragraf care ncepe cu linie de dialog a fost lipit la sfritul paragrafului din faa sa. Opiunea ncearc s repare aceast ultim eroare i "rupe" paragraful atunci cndgsete o liniu care ndeplinete condiiile unei linii de dialog. Astfel, liniua trebuies aib spaiu nainte i dup, are o fraz care se termin corect naintea spaiului din fa i are o fraz care ncepe cu liter mare dup spaiu de dup liniu. Sunt cazuri de beletristic n care toate condiiile de mai sus apar i n cazul unei linii de pauz. Situaiile sunt destul de rare, dar exist. Mai mult dect att, aceste situaii apar, de regul, n cazul dialogurilor, iar liniile de pauz separ ceea ce spune personajul de ceea ce comenteaz autorul; deci confuzia poate fi mare, dac se face o rupere eronat. Rularea opiunii poate produce erori n cazul unui anumit autor sau traductor; dac marcarea comentariilor autorului n dialoguri se face cu linii de pauz, erorile pot avea o frecven mai mare; dac aceste comentarii sunt marcate prin virgule, erorile sunt minime sau inexistente. Opiunea trebuie folosit cu atenie, dup o vizualizare ct de sumar a textului, pentru stabilirea modului n care s-a fcut demarcarea comentariilor autorului de de ceea ce spun personajele ntr-un dialog. Iat dou moduri corecte de marcare a comentariilor autorului ntr-un dialog. Nu sunt credincios zise el dar am s spun Tatl Nostru de zece ori, ca s prind petele. Nu sunt credincios, zise el, dar am s spun Tatl Nostru de zece ori, ca s prind petele. n cazul n care n carte se folosete metoda liniilor explicative ca n primul exemplu, activarea opiunii ar putea produse erori; n cel de-al doilea caz, erorile suntaproape excluse. Recomandare personal: utilizatori nceptori = setare inactiv i utilizatori avansai = setare ACTIV

    2. PUNCTUAIE

    2.1. Eliminare artefact-paragraf 2.2. Corectare linii de pauz i linii de dialog 2.3. Funcii obinuite 2.4. Corectare suplimentar elipsis 2.5. Conversie combinaii ? ! i . ,

  • 2.1. Eliminare artefact-paragraf Paragraf-artefact sau artefact-paragraf n cazul de fa este un paragraf care nu conine text, cu doar un caracter sau combinai de dou sau trei caractere eronat recunoscute [ceea ce am numit cu termenul general de "rglie"]. Opiunea caut i modific un astfel de paragraf i terge "rgliile", transformnd paragraful n unul gol, fr coninut. Aceast opiune funcioneaz prin rularea dicionarului CO_Artef.imd, respectiv CL_DArtef.imd. Exemplu de caractere-rglii nregistrate la acest moment: ^ < > | _ @ # $ % + = { } [ ] Este important de reinut c dicionarul poate fi completat de fiecare utilizator cu cazuri noi descoperite n OCR. Menionez c la editarea dicionarului trebuie s se in cont de faptul c toate nregistrrile au n mod obligatoriu condiiile "nceput de paragraf" Pi i "Sfrit de paragraf" Ps, la care se adaug "Potrivire perfect" Pp. n ultima coloan a dicionarului trebuie s apar condiiile Pp Pi Ps Dac una dintre cele dou condiii Pi sau Ps lipsete, programul va cuta astfel de situaii i la nceputul sau sfritul unor paragrafe care conin text, ceea ce poate afecta corectitudinea textului, deoarece pe lng rglii au fost nregistrate sau se pot nregistra i semne de punctuaie solitare sau chiar litere solitare. Aa cum este editat dicionarul la momentul actual, nu exist efecte secundare nedorite. Recomandare personal: setare ACTIV

    2.2. Corectare linii de pauz i linii de dialog Opiunea este implementat pe baz de cod i rularea automat a dou dicionare: CO_LinP.imd i CO_LinD.imd [CL_LinP.imd i CL_LinD.imd] CO_LinP.imd ia n calcul liniile de pauz, deci linii indiferent unde s-ar afla n texti ruleaz primul, iar CO_LinD.imd se ocup doar de curarea liniilor de dialog, deciare condiia onligatorie "nceput de paragraf" Pi. La rularea acestei opiuni, sunt "curate" de rglii liniile de pauz i liniile de dialog; altfel spus, se elimin din jurul liniilor de dialog i liniilor de pauz, diferite caractere recunoscute eronat, indifernt dac acestea sunt lipite de linii n faa lor sau dup ele sau dac ntre linii i rglii exist spaiu. Nu se fac modificri acolo unde liniile sunt de tip cratim i lipite de litere. Efectele negative ale opiunii sunt minime, de circa dou-trei procente. Folosirea opiunii scurteaz n foarte-foarte msur timpul necesar la corectura manual. Cele dou dicionare pot fi mbuntite; se vor urmri cu atebie condiiile ce trebuie puse nregistrrilor. Recomandare personal: setare ACTIV

    2.3. Funcii obinuite Opiunea pune n aplicare toate setrile care s-au fcut la "Configurare - Punctuaie - OCR_Plus" Problemele au fost tratate detaliat n postarea privind "Configurare - Punctuaie - OCR_Plus", aa c nu mai relum explicaiile.

  • Recomandare personal: setare ACTIV

    2.4. Corectare suplimentar elipsis Elipsis este caracterul asemntor cu trei puncte color=#7FFFD4]Pi[/color] doarc este un singur caracter i nu o succesiune de 3 caractere. Este foarte important ca n locul punctelor de suspensie s fie folosit caracterul Elipsis, deoarece n interpretarea unor opiuni se poate face confuzie ntre caracterul "punct" i unul dintrepunctele componente de la punctele de suspensie. Discuia s-a purtat pe forum, fapt pentru care nu insist asupra importanei caracterului Elipsis. La opiunea "2.3. Funcii obinuite" se face conversia succesiunii de 3 sau mai multe puncte n Elipsis. Aceast opiune adaug n plus alte cteva situaii, n care succesiunea este compus din puncte i virgule n diferite combinaii, aa ca n exemplele urmtoare: ,.. .,. .., ,,. ,., .,, .... ,... , .,.. ..,. ..., , ,,.. ,.,. ,.., .,,. .,., ..,, Toate aceste combinaii sunt transformate ntr-un singur caracter Elipsis. Recomandare personal: setare ACTIV

    2.5. Conversie combinaii ? ! i . , Exist situaii n care caracterul ? este nsoit n mod eronat de un caracter punct sau de un caracter virgul. Punctul sau virgula sunt lipite de caracterul ? nainte sau dup el, astfel: .? ,? ?. ?, Acelai lucru este posibil i cu caracterul !. Exemplu: .! ,! !. !, Punctul sau virgula din aceste situaii sunt la origine mici pete de imagini determinate de vechimea hrtie sau textura de slab calitate a hrtiei, ori din alte morive. Practic aceste puncte sau virgule nu exist n textul original i ar trebui eliminate. n principiu, la rularea acestei opiuni, punctul sau virgula lipit de ? sau de ! sunt eliminate, astfel c: .? ,? ?. ?, se transform n ? .! ,! !. !, se transform n ! Opiunea are o fereastr de setare a combinaiilor. Aceasz opiune este implementat n ultima perioad, astfel c nu au fost fcute foarte multe teste. Recomandare personal: setare ACTIV cu activarea tuturor situaiilor din setare, dar i urmrirea pe ct posibil a efectelor opiunii asupra textului. 3. CONVERSIE TEXT CLASIC N TEXT CONTEMPORAN

    Aceasta opiune este implementat n AutoCorect oficial nc de la apariia primelor versiuni i se afl ca opiune independent n meniu la Editare --> Conversietext clasic n text contemporan. Deoarece opiunea este folosit frecvent n curarea OCR, s-a convenit ca ea s fie accesat i din acest meniu i s poat fi rulat automat n cadrul meniului OCR_Plus. Practic, opiunea nlocuiete formele < snt, sntem, sntei > cu < sunt, suntem, suntei > i nlocuiete litera < > din interiorul cuvintelor cu litera < >. Opiunea funcioneaz astfel nct s nu afecteze scrierea cu < > n interiorul cuvintelor compuse, astfel c nu face nlocuirea lui < > n cazul cuvintelor compuse

  • cu prefixele din imaginea urmtoare: Vezi imagine nlocuirea NU FACE i o corectare a cuvintelor, ci doar conversia literei >> i a celor trei forme snt. Exist o singur excepie: la rularea opiunii cuvintele < nici o > i < nici un > se transform n < nicio > i < niciun >. Pentru repararea unor efecte suplimentare nedorite ale acestei corecii, au fost fcute cteva nregistrri de forma: nicio singur >> nici o singur; niciunei singure >> nici unei singure; niciun singur >> nici un singur; niciunui singur >> nici unui singur.

    Foarte important! Sunt mprite prerile userilor cu privire la pstrarea textului cu grafia clasic sau convertirea la grafia contemporan. Nu ncerc s susin o variant sau alta, chiar dac nu mi se pare corect s scriem astzi aa cum se scria n urm cu aproape 20 de ani, dar trebuie avut n vedere c: TOATE DICIONARELE CARE RULEAZ AUTOMAT N MENIUL OCR_PLUSAU FOST CREATE PENTRU ERORI CARE APAR LA TEXTE N LIMBA ROMN CONTEMPORAN. Aceste dicionare au fost gndite i au o anumit logic pentru erori ce apar la texte n varianta Contemporan. Pentru varianta Clasic s-a fcut doar o nlocuire simpl a literei < > cu < > n nregistrri. Este posibil ca unele nregistrri n varianta Clasic s nu produc efecte.

    n concluzie, cine dorete s beneficieze de toate facilitile meniului OCR_Plus trebuie s activeze aceast opiune. Recomandare personal: setare ACTIV 4. CORECTARE CARACTERE REPRODUSE ERONAT

    4.1. Corectarea majusculelor ncorporate 4.2. Corectarea literelor l, d i m reproduse eronat 4.3. Corectare cuvinte foarte scurte 4.4. Corectarea minuscule la nceput de paragraf 4.5. Convertire majuscul n minuscul n dialog francez 4.6. nlocuire secvene cuvinte

  • Cnd spunem erori de OCR, cel mai adesea ne referim la erori de recunoatere a caracterelor. Exist caractere asemntoare ca form, precum cifra 1 sau semnul de punctuaie ! i litera L mic, cifra 0 i litera O, grupul c+l i litera d, grupul r+n i litera m, caracterele $ sau i litera , confuzii ntre literele e i c... Erori de OCR sunt i rocade de dou litere alturate, astfel c grupul et poate fi reprodus ca te... i multe alte erori n care n locul unui caracter, Abbyy "recunoate" un alt caracter. Unele erori sunt date de insuficiena nregistrrilor n dicionarul de limba romn la care Abbyy are acces. Acest pachet de opiuni ncearc s rezolve o parte din aceste erori. Pachetul se bazeaz n principal pe rularea automat a unui numr mare de dicionare de tip OCR_Plus. n acest moment pachetul n totalitatea lui ruleaz 12 dicionare cu peste 4600 de nregistrri. Mai sunt n lucru alte cteva dicionare de secvene care nu au fost definitivate i implementate. Este posibil ca n perioada urmtoare pachetul s mai fie mbuntit i cu alte opiuni, dar acest lucru nu va complica modul de lucru al utilizatorului, deoarece opiunile au un element comun - rularea automat de dicionare care fac nlocuiri de cuvinte sau secvene de cuvinte. Practic toate opiunile din pachet ar putea fi comprimate n una singur, numit "Corectare caractere reproduse eronat". A fost aleas varianta divizrii n mai multe opiuni pentru ca numele acestora s sugereze i categoriile de nlocuiri pe care o anume opiune le face. O caracteristic un pic aparte o are opiunea 4.5. Convertire majuscul n minuscul n dialog francez, pe care o vom sublinia la momentul respectiv.

    Pentru ca utilizatorul s fie convins de necesitatea rulrii acestor opiuni i s nu aib reineri la activarea lor, pe motiv c ele ar produce efecte secundare nedorite, vom descrie n detaliu fiecare opiune n parte.

    E posibil ca explicaiile s fie ceva mai lungi dect la alte opiuni, astfel c am ales varianta ca unele dintre opiuni s fie tratate n cte o postare separat. Este mai uor de urmrit o postare care nu este foarte lung i este mult mai uor de editat i modificat.

    4.1. Corectarea majusculelor ncorporate Termenul de majuscul ncorporat se refer [n acest caz] la scrierea eronat cu una sau mai multe litere majuscule n interiorul unor cuvinte ce trebuie s conin doar litere minuscule. Exist cteva litere care au aceeai form, att n forma majuscul, ct i n forma minuscul. Este vorba despre literele C, J, O, P, S, , U, V, W, Z, care seamn pn la identificare cu forma lor minuscul: c, j, o, p, s, , u, v, w, z. n cazul acestor litere, ntre majuscul i minuscul exist doar diferen de mrime. Din acest motiv Abbyy poate face confuzii ntre minuscula i majuscula unei litere, fapt pentru care pot rezulta OCR, care au litere majuscule n interiorul cuvintelor scrise cu minuscule.

    Iat ultima fraz scris n acest mod: Din aCeSt mOtiv Abbyy pOate faCe cOnfUzii ntre minUSCUla i majUSCUla unei litere, fapt pentrU care pOt rezUlta OCR, care aU litere majUSCUle n interiOrUl CUvintelOr SCriSe CU minUSCUle.

    Opiunea ruleaz pe baz de cod i rezolv situaii din cele menionate mai sus. Recomandare personal: setare ACTIV

  • 4.2. Corectarea literelor l, d i m reproduse eronat Opiunea ruleaz automat urmtoarele 5 dicionare: CO_L1.imd, CO_L2.imd i CO_L3.imd pentru coreciile: cifra 1 >> L mic,! >> L mic i cifra 0 >> litera O. CO_Gcl.imd pentru corectarea: grupul c+l >> litera d. CO_Grn.imd pentru corectarea: grupul r+n >> litera m.

    S analizm pe rnd fiecare grup de erori. Cifra 1 n locul literei l [L mic] La marea majoritate a fonturilor de tip serif, cifra 1 i litera L mic sunt foarte asemntoare. Fontul Bookman Old Style le reproduce identic, iar n Times New Roman [font folosit frecvent la tiprirea crilor] sunt foarte asemntoare; pentru detalii despre fonturi serif i sans serif, vezi imagine aici i detalii suplimentare aici. Abbyy face frecvent aceast confuzie i scrie cifra 1 n loc de litera l [L mic] n situaiile n care litera L mic este lipit de cratim, indiferent dac este vorba de cratim naintea literei sau cratim dup litera L mic. Abbyy crede c respectiva cratim este semnul "minus" din matematic, iar litera L mic este cifra 1; n concluzie, cratim lipit de litera L este considerat a fi "unu minus..." sau "minus unu". Exist un numr mic de useri nceptori care fac corectura cap-coad a unui text inici nu realizeaz c textul lor conine un mare numr de caractere "cifra 1" acolo unde trebuia s fie L mic. Cifra 0 n locul literei O [mic sau mare] Cauzele apariiei unor astfel de situaii sunt similare celor de la cifra 1 >> litera L mic. Subliniiez c cifra 0 nenspit de alte semne este corectat ca fiind litera O mare, iar cifra 0 lipit de liniue este modificat ca fiind litera O mic din compunerea unui cuvnt cu cratim. Semnul exclamrii n locul literei l [L mic] Semnul exclamrii poate fi reprodus de Abbyy n locul literei L mic, atunci cnd baza literei L mic nu este clar reprodus n carte, ca urmare a unui tipar defectuos sau uzura n timp [tergerea merginilor literei, "gurirea" literei. Pentru corectarea ! >> l nu au fost luate n calcul situaiile n care litera L mic ocup poziia final n cuvnt, ci doar dac dup semnul ! urmeaz cel puin o liter mic.

    Toate aceste situaii sunt corectate prin rularea dicionarelor CO_L1.imd, CO_L2.imd i CO_L3.imd, respectiv CL_L1.imd, CL_L2.imd i CL_L3.imd pentru AC Clasic. n principiu, la acest moment, dicionarele sunt structurate astfel: L1 cuprinde cuvinte ntregi, L2 cuprinde secvene de sfrit de cuvnt i L3 cuprinde secvene de nceput de cuvnt. Fa de aceast structur exist i nregistrri care fac excepie: este vorba de nregistrrile care convertete semnul ! n L mic, i care dei nu sunt cuvinte ntregi, ci secvene de dou caractere, au fost nregistrate n primul dicionar. Variante de dicionare cu acest rol au nceput s fie editate i rulate n AutoCorect n urm cu peste doi ani. Actualele dicionare au la baz acele dicionare care au fost mbogite i perfecionate de-a lungul timpului. Erorile constatate sau reclamate de diveri useri de-a lungul timpului au fost eliminate sau corectate. n mod sigur dicionarele nu sunt perfecte i necesit mbuntire permanent, darn ultima perioad nu au fost constatate sau raportate efecte secundare importante. Menionez c n acest moment exist n dicionarul CO_L3.imd cteva nregistrri

  • care necesit confirmare la rulare. Acest lucru este neplcut pentru utilizator deoarecerularea automat a meniului poate fi ntrerupt i programul [dac gsete astfel de situaii n textul de corectat] s atepte confirmarea pentru a rula mai departe. Viitoarea versiune de dicionare, aflat acum n lucru, ncearc s elimine la maxim condiia de confirmare; la dicionarele care vor rula la aceast opiune va fi eliminat complet condiia de confirmare a nlocuirilor.

    Succesiunea de litere c l n locul literei d i succesiunea de litere r n n locul literei m Litera d [D mic] poate fi confundat de Abbyy cu succesiunea de litere c+l < cl >; uneori confuzia se poate face i n sens invers. Astfel de confuzii se pot face i ntre litera m [M mic] i succesiunea de litere r+n < rn >. Se poate urmri asemnarea dintre succesiunile i literele menionate n imaginea cl=d i rn=m Dicionarul CO_Gcl.imd realizeaz o serie de corecii ale succesiunii cl >> d pentru cuvinte cu frecven mai mare n limba romn. Dicionarul CO_Grn.imd realizeaz corecii ale succesiunii rn >> m.

    Din testri rezult c astfel de confuzii se produc mai mult n cazul cuvintelor scurte i mai rar n cazul cuvintelor lungi. Exist i cteva cuvinte la care nu se pot face modificri automate, deoarece sunt valabile n limba romn att cuvintele care conin litera d, dar i succesiunea cl, cumar fi cele din exemplul urmtor: clac - dac; clar - dar; clin - din; cldea - ddea. Astfel de cuvinte au fost trecute n dicionarele cu variante i confirmare care ruleaz la opiunea 12.2 Pentru succesiunea rn >> m exist noi nregistrri care vor fi cuprinse n noua versiune de dicionare.

    Menionez c dicionarele pot fi i trebuie s fie mbuntite cu alte nregistrri; laacest moment ele pot rezolva majoritate confuziilor de tip cl >> d i rn >> m. La rularea dicionarelor nu am constatat efecte secundare nedorite. n principiu, dicionarele de la ntregul pachet de opiuni sunt gndite s realizeze ct mai multe corecturi, fr a face modificri nedorite. Atunci cnd o anume nregistrare ar fi putut produce efecte secundare nedorite, am preferat s nu fac nregistrarea respectuv n dicionar. Recomandare personal: setare ACTIV

    4.3. Corectare cuvinte foarte scurte Opiunea ruleaz automat urmtoarele 4 dicionare: CO_Sc1.imd, CO_Sc2.imd, CO_Sc3.imd i CO_Sc4.imd Dicionarele corecteaz erori de recunoatere care apar la cuvinte foarte scurte, de pn la 4 litere inclusiv. Exist ca excepie i un numr foarte-foarte mic de nregistrri care se refer la cuvinte formate din cinci litere. Pentru dezvoltatori, menionez c structura dicionarelor nu este respectat ferm, dar n principiu se poate meniona c dicionarul CO_Sc1.imd face corecii att pentru cuvinte ntregi formate din dou litere, dar i pentru cteva secvene de cte

  • dou litere aflate la nceput sau la sfrit de cuvinte; dicionarul cuprinde i situaii foarte rare, dar posibile, n care litera "" este recunoscut ca "$" sau "", iar litera "E" este recunoscut ca "". Dicionarele CO_Sc2.imd, CO_Sc3.imd i CO_Sc4.imd corecteaz numai cuvinte ntregi formate din 3 sau 4 litere. Toate cele 4 dicionare cuprind nregistrri de cuvinte cu i fr cratim. Posibilitatea de realizare a unor nlocuiri nedorite este teoretic imposibil.

    Recomandare personal: setare ACTIV

    4.4. Corectarea minuscule la nceput de paragraf Opiunea ruleaz automat dicionarul CO_Midp.imd [CL_Midp.imd], care cuprinde aproape 2000 de nregistrri. Practic, opiunea realizeaz majusculri i corecturi suplimentare fa de cele realizate la opiunea 2.3 Punctuaie >> Funcii obinuite. Efectul este maxim dac la setarea punctuaiei se activeaz opiunile ca n imaginea urmtoare de mai jos. Activarea mai multor opiuni de setare fa de cele activate n imagine nu este recomandat, deoarece se vor realiza majusculri n plus n poziii de text n care majuscularea este incorect.

    Dicionarul execut dou categorii de nlocuiri: Majuscularea unor litere care au att n varianta majuscul ct i n cea minuscul form identic. Urmtoarele litere c-C; -; j-J; o-O; p-P; s-S; -; u-U; v-V; x-X; y-Y; z-Z se majusculeaz doar dac ele apar ca prima liter dup linia de dialog. Nu recomand dezvoltarea dicionarului cu nregistrri care s realizeze majuscularea acestor litere n alte situaii.

    Un numr de circa 650 de cuvinte care ncep cu litera i sunt recunoscute n mod eronat ca ncepnd cu litera I, se corecteaz n urmtoarele 3 situaii: la nceput de paragraf, la nceput de dialog i la nceputul unei fraze [care ncepe dup fraz terminat cu PUNCT], aflat n interiorul paragrafului.

    La editarea dicionarelor s-a urmrit evitarea nregistrrii paronimelor [cuvinte care au att varianta corect care ncepe cu , ct i variant corect care ncepe cu I, ca de exemplu ntre - Intre]. Posibilitatea de realizare a unor nlocuiri nedorite, n forma actual a dicionarului,

  • este teoretic imposibil.

    Recomandare personal: setare ACTIV

    4.5. nlocuire secvene cuvinte Opiunea ruleaz automat urmtoarele 6 dicionare: CO_SInc1.imd CO_SInc2.imd corecteaz secvene de nceput de cuvnt; CO_SMed1.imd CO_SMed2.imd corecteaz secvene de la mijlocul cuvntului [medii]; CO_STer1.imd CO_STer2.imd corecteaz secvene de sfrit de cuvnt [terminale].

    Prin noiunea de "secven de cuvnt", n sensul prezentei opiuni, se nelege o succesiune de litere aflate la nceputul, la mijlocul sau la sfritul cuvntului. S-a notat cu "SInc" - secvenele aflate la nceputul cuvintelor, cu "SMed" - secvenele aflate n interiorul cuvntului [SMed = secvene mediane] i cu "STer" - secvenele aflate la sfritul cuvintelor [STer = secvene terminale]. Numele nu sunt, probabil, cele mai inspirate, dar au fost alese astfel pentru a pstra o ordine alfabetic a lor.

    Pentru a nelege mai bine rolul acestei opiuni, e bine s discutm cteva exemplede secvene: Secvene de nceput: aplee >> aplec. Exist circa 90 de cuvinte care ncep cu secvena aplec, printre care: aplec, apleca, aplecai, aplecam, aplecar, aplecarm, aplecari, aplecare, aplecarea aplector, aplectori, aplectorii, aplectorilor, aplectorul... aplecuurilor, dar nu exist niciun cuvnt care s nceap cu secvena aplee. Secvene mediane: bcg >> beg. Exist peste 300 de cuvinte care conin secvena [succesiunea] beg, dar nu exist niciun cuvnt care s conin secvena bcg. Dicionarele conin foarte multe nregistrri care modific litera c aflat ntre consoane cu litera e ntre consoane; de asemenea multe situaii n care litera L mic aflat ntre consoane a fost modificat cu litera i ntre dou consoane. Fiecare secven, nainte de a fi nregistrat, a fost verificat dac exist sau nu n componena cuvintelor aflate n dicionarele limbii romne pe care le ncarc AutoCorect n folderul de instalare. Secvene de sfrit: lulul >> lului. Exist peste 5100 de cuvinte care se termin cu secvena [succesiunea] lului, dar nu exist niciun cuvnt care s se sfreasc cu secvena lulul. i la editarea acestor dicionare, ca de altfel la marea majoritate a nregistrrilor, fiecare secven, nainte de a fi nregistrat, a fost verificat dac exist sau nu n componena cuvintelor aflate n dicionarele limbii romne pe care le ncarc AutoCorect.

    Foarte important: Opiunea este relativ de curnd implementat, fapt pentru care unele dintre dicionare sunt la nceput de drum. Dicionarele SMed1 i SMed2 sunt relativ complete, dar pot fi dezvoltate cu mare atenie, astfel ca secvenele propuse modificrii s nu provoace nlocuiri nedorite. Dicionarele care fac nlocuiri ale secvenelor de nceput [SInc1 i SInc2] i cele

  • care fac nlocuiri ale secvenelor de sfrit [STer1 i STer2] conin foarte puine nregistrri i este necesar mbogirea i perfecionarea lor.

    Comentariu: n legtur cu modificrile care se realizeaz la aceast opiune i la opiunea urmtoarea, se cuvine s facem un scurt comentariu:

    nlocuirile de cuvinte ntregi au avantajul c au o corectitudine maxim, iar efectele secundare sunt practic imposibile. Dezavantajul n cazul nlocuirii cuvintelor ntregi este faptul c probabilitatea existenei n text a erorilor de acest gen este relativ mic. De exemplu, n cazul nlocuirii imponderabilitatc >> imponderabilitate corectitudinea este de 100%, iar efectele secundare sunt zero. Probabilitatea ca acest cuvnt s existe n text n aceast form este foarte mic.

    nlocuirile de secvene de cuvinte au dezavantajul c pot produce uneori efecte secundare nedorite, dar au avantajul c frecvena lor n text este mult mai mare i se vor face mult mai multe nlocuiri. De exemplu, secvena final oarc >> oare poate fi valabil pentru circa 3787 de cuvinte din limba romn. Partea neplcut este c uneori i secvena final carc poate fi recunoscut n mod eronat n forma oarc, deci nlocuirea de mai sus nu prezint corectitudinea de 100%.

    Recomandare personal: setare ACTIV 4.6. Corectare cuvinte ntregi i expresii Opiunea ruleaz automat urmtoarele 5 dicionare: CO_CImf1.imd CO_CImf3.imd corecteaz cuvinte ntregi; CO_Expr1.imd CO_Expr2.imd corecteaz grupuri de cuvinte [expresii].

    Aceast opiune, ca i cea anterioar este implementat n ultima perioad, fapt pentru care dicionarele cuprind un numr relativ mic de nregistrri, fa de posibilitile reale. De aceea este necesar mbuntirea n continuare a acestor dicionare. Pentru dezvoltatori este relativ simplu de adugat cuvinte n dicionarele CO_CImf1.imd CO_CImf3.imd, dar trebuie s acorde atenie sporit la dezvoltarea dicionarelor care conin grupuri de cuvinte [CO_Expr1.imd CO_Expr1.imd].

    De ce este necesar o opiune special pentru nlocuiri de cuvinte ntregi i expresii? Practic, aceast opiune face o dezvoltare, o lrgire, a opiunii 4.3. Corectare cuvinte foarte scurte. La acest moment nu pare s existe o diferen foarte clar ntre tipurile de nlocuiri ale cuvintelor ntregi ale celor dou opiuni, dar n timp ce opiunea 4.3. face corectri ale cuvintelor scurte, de maxim 4 litere, aceast opiune, prin dicionarele sale CO_CImf1.imd CO_CImf3.imd, trebuie s realizeze corectriale cuvintelor mai lungi.

    Dicionarele care corecteaz grupuri de cuvinte reprezint mai mult dect o lrgire a nlocuirilor de cuvinte ntregi. Dei nregistrrile fac nlocuiri de grupuri de

  • cuvinte, practic modificarea se face doar asupra unui singur cuvnt din grup, celelaltecuvinte avnd rolul de coordonate n cutarea cu precizie a cuvntului de nlocuit. Cuvintele ce sunt corectate se pot modifica prin varianta nlocuire cu confirmare, dar aceast metod solicit mai mult timp pentru rezolvare, precum i intervenia utilizatorului la fiecare cuvnt gsit.

    Exist cteva paronime ntlnite frecvent n OCR-uri care necesit corectare, aa cum ar fi de exemplu: sting-stng, stingi-stngi, sting-stng, ling-lng, intre-ntre. Abbyy recunoate ambele variante de cuvinte n forma scris cu litera "i", deci: sting, stingi, sting, ling, intre; menionez c n text au frecven mai mare exact celelalte cuvinte, adic: stng, stngi, stng, lng, ntre. Dac s-ar face nregistrarea sting >> stng, nlocuirea cuvntului "sting" cu cuvntul "stng" ar trebui confirmat sau respins pentru fiecare nlocuire n parte. Fcnd nregistrri de grupuri de cuvinte de forma: picior/piciorul/piciorului sting >> picior/piciorul/piciorului stng, umr sting >> umr stng... atunci nlocuirea se poateface automat, fr confirmare. Pentru cuvintele ling-lng i intre-ntre, mai nti s-au fcut nlocuirile ling >> lng i intre >> ntre, dup care au fost fcute nlocuiri n expresii de dou pn la cinci cuvinte, astfel nct nlocuirile s se fac fr confirmare i ct mai sigur.

    n afara acestor paronime, Abbyy face uneori confuzii de recunoatere ntre cuvintele "ele" i "de". n cazul acestor cuvinte confuzia poate exista sau nu, iar atunci cnd exist, este frecvent folosirea cuvntului "ele" n locul lui "de". Prin folosirea nregistrrilor de tipul: fa ele >> fa de; fa ele >> fa de; form ele >> form de; la un pas ele >> la un pas de, numrul de situaii ce trebuie corectatemanual se reduce foarte mult.

    Recomandare personal: setare ACTIV

    4.7. Convertire majuscul n minuscul n dialog francez

    Opiunea se bazeaz pe rularea automat a dicionarului CO_DFr.imd. Aceast opiune funcioneaz la pachet cu o setarea din Configurarea Punctuaiei OCR Plus. Este vorba despre setarea din imaginea urmtoare:

    Dac se activeaz setarea "Majuscul la nceput de fraz dup ! i ? urmat de spaiu", se vor majuscula toate cuvintele care ncep dup semnele "!" i "?", inclusiv n poziiile din text n care majuscularea este incorect [poziiile cunoscute ca fiind dialog francez]. Din acest motiv [pentru c se majusculeaz i situaiile n care textul trebuie scris

  • cu minuscul] este obligatorie activarea aceastei opiuni "4.7. Convertire majuscul nminuscul n dialog francez", care va rula dicionarul CO_DFr.imd.

    Dicionarul face corecii de genul: ! i spuse >> ! i spuse; ! i strig >> ! i strig; ! i opti >> ! i opti; ! i vorbi >> ! i vorbi; ! i zise >> ! i zise. ? i spuse >> ? i spuse; ? i strig >> ? i strig; ? i opti >> ? i opti; ? i vorbi >> ? i vorbi; ? i zise >> ? i zise.

    Dac la Configurarea Punctuaiei OCR Plus nu se activeaz setarea "Majuscul la nceput de fraz dup ! i ? urmat de spaiu", atunci nu este nevoie s ruleze opiunea de fa. Este posibil ca n aceast situaie s rmn cteva situaii care vor necesita majusculare, dar acest lucru se va putea face manual cu ocazia corecturii.

    n concluzie: Dac la Configurarea Punctuaiei OCR Plus activm setarea "Majuscul la nceput de fraz dup ! i ? urmat de spaiu", atunci este obligatorie activarea opiunii "4.7. Convertire majuscul n minuscul n dialog francez". Dac la Configurarea Punctuaiei OCR Plus nu activm setarea "Majuscul lanceput de fraz dup ! i ? urmat de spaiu", atunci nu vom activa nici opiunea "4.7. Convertire majuscul n minuscul n dialog francez".

    Care este varianta cea mai bun? Prerile sunt mprite: useri cu experin n corectur prefer s nu activeze acesteopiuni i s execute eventualele majusculri n mod manual, iar ali useri cu experin n corectur adopt varianta activrii ambelor opiuni. Ceea ce pentru un utilizator al programului pare mai comod i mai uor, pentru alt utilizator poate prea greoi i dificil i invers.

    Cel mai bine este ca fiecare user s-i stabileasc varianta preferat. Pentru a stabili varianta optim este bine s se fac testri n ambele variante, prin ceea ce vom numi "Test 100", adic testarea a o sut de pagini de carte. Se alege un text de maxim 100 de pagini de carte, se prelucreaz separat n cele dou variante i apoi prin vizualizarea textelor rezultate [se face o vizualizare foarte atent, dar fr a face o corectur prin citire cuvnt cu cuvnt], se stabilete varianta care pare mai comod.

    Meniune important: Exist 8 nregistri care ar trebui s ruleze n acest dicionar, dar pentru c necesitauconfirmare n mod obligatoriu, au fost mutate n ultimul dicionar care ruleaz n cadrul Meniului OCR Plus; este vorba de dicionarul CO_Var4.imd, iar nregistrrile se alfl pe ultimele 8 poziii ale dicionarului. Aceste nregistrri sunt: ! I^_ >> ! i^_ ! Le^_ >> ! le^_ ! O^_ >> ! o^_ ! Se^_ >> ! se^_ ? I^_ >> ? i^_ ? Le^_ >> ? le^_ ? O^_ >> ? o^_ ? Se^_ >> ? se^_ Informez utilizatorii c grupul de caractere ^_ este codul pentru spaiu.

    Utilizatorii care nu activeaz opiunea "4.7. Convertire majuscul n minuscul n dialog francez", cnd programul va ajunge s ruleze aceste nregistrri cu confirmare

  • vor aciona asupra butonului "renun" pentru fiecare dintre nregistrri pentru ca programul s renune la cutri. Butonul "Renun" ocup poziia a treia n fereastra de confirmare, redat n imaginea de mai jos:

    5. MARCARE CARACTERE:

    Marcare ghilimele Marcare apostroafe Marcare consoane independente n format Spaiu_Consoan_Spaiu Marcare caracterele: ~ & * ( ) \ / Marcare caracterele: ~ & = + $ % # { } [ ] ( ) / \ > < *

    Numele opiunii este suficient de sugestiv, iar fereastra de setri este foarte clar, astfel c nu va fi nevoie de prea multe explicaii n legtur cu aceast opiune.

    Opiunea permite utilizatorilor s marcheze prin colorare diferite caractere, pentru a fi mai uor de urmrit la corectare. Dup cum se poate vedea n imagine, utilizatorul poate marca doar anumite caractere sau toate caracterele implementate n opiune. Pentru fiecare dintre cele 5 categorii de caractere se poate alege cte o culoare diferit de marcare a fontului, ori se poate alege o singur culoare pentru toate caracterele pe care le dorim a fi marcate. De reinut c marcarea se face prin colorarea fontului i nu a fundalului.

    Nu se pot face recomandri pentru activarea sau neactivarea opiunii. Pentru unii utilizatori marcarea poate fi benefic, prin scoaterea n eviden a unor caractere ce trebuie urmrite; de exemplu, prin marcare se poate urmri mai uor existena perechilor de ghilimele - este posibil ca uneori Abbyy sp nu recunoasc ambele ghilimele care formeaz perechea ci numai unele dintre ghilimele, fie ele de deschodere sau nchidere.

  • Pentru ali utilizatori marcarea poate s deranjeze, s atrag mai mult atenia asupra caracterelor marcate, "srind" peste alte tipuri de erori ce trebuiesc corectate. Dup corectarea ctorva volume, fiecare utilizator va ti sigur care dintre variante i se "potrivete" cel mai bine, care variant [marcarea sau nonmarcarea] i se pare mai comod. Recomand ca i la aceast opiune s se fac ceea ce am numit "Test 100", pentru a stabili care metod de lucru mare mai comod.

    6. TERGERE CARACTERE:

    Eliminare Cratim semiindependent ["Cratim_spaiu" i "Spaiu_Cratim] Eliminare Apostrof independent ["Spaiu_ Apostrof _Spaiu] Eliminare Artefacte cri obinuite [Spaiu_Artefact_Spaiu] Eliminare Artefacte cri tehnice [Spaiu_Artefact_Spaiu]

    Opiunea este oarecum similar cu opiunea precedent, doar c de data aceasta anumite caractere [cunoscute i sub numele de artefacte sau rglii] sunt terse i nu doar marcate. De asemenea, numele opiunii este suficient de sugestiv, iar fereastra de setri este foarte clar, astfel c nu va fi nevoie de prea multe explicaii privind aceast opiune. i... nici la aceast opiune nu exist o recomndare clar privind activarea sau nonactivarea opiunii.

    Este important de reinut c exist dou cauze ale apariiei n text a acestor "rglii". Prima cauz: unele dintre "rglii" apar n text fr s existe un caracter asemntor n original; aceste "rglii" apar ca urmare a unor defeciuni la scanare, ori ca urmare a unor mici pete pe pagina scanat sau defeciuni ale texturii hrtiei pe care a fost tiprit cartea. ntr-un mod sau altul, automat sau manual, ele vor fi terse deoarece nu exist n text. A doua cauz: o alt categorie de "rglii" apar n text n locul unor alte caractere asemntoare; de exemplu: caracterul < j > poate nlocui caracterul < ; >, caracterul < / > poate nlocui caracterul < z >, caracterul < $ > poate nlocui caracterul < > etc... etc... n astfel de situaii este mai uor de observat locul unde trebuie fcut corectura manual arunci cnd se pstreaz caracterul "rglie" n loculrespectiv i se poate "sri" mai uor peste eroare dac acel caracter a fost ters.

  • Ca i la opiunea precedent, propun executarea "Test 100" pentru ca fiecare utilizator s poat alege varianta de lucru optim: activarea, activarea parial sau nonactivarea opiunii.

    7. nlocuiete toate liniile de pauz cu:

    EmDash EnDash Horizontal Bar.

    S ncepem prin a face cteva comentarii n legtur cu "Linia de pauz.

    Prin "Linie de pauz", conform DOOM 2/2010 se nelege: "1.2.5. Linia de pauz [] Este utilizat ca semn ortografic numai n scrierea unor cuvinte compuse complexe (cu caracter mai mult sau mai puin ocazional) care cuprind cel puin un cuvnt compus scris cu cratim: americanosud-coreean, nordnord-vest, sud-estnord-vest. n aceast situaie nu este precedat sau urmat de blanc." n nota de subsol nr. 39, de la pagina XLIII se arat: Linia de pauz este "Plasat aproximativ la jumtatea nlimii rndului. Numit i pauz. Este mai lung dect cratima. Este i semn de punctuaie."

    n realitate, n sensul acestei opiuni, nu este vorba de Linia de pauz tratat de DOOM 2, ci de o alt liniu, cunoscut i sub numele de "Linie explicativ" sau "Cratima mare". Aceast linie este precedat i urmat de blanc [spaiu] i se folosete n urmtoarele dou situaii:

  • Linia explicativ care marchez [separ] comentariul autorului de vorbele unui personaj, ntr-un dialog, exemplu: De altfel adug ea, cobornd vocea va fi un prieten n plus la caz de nevoie. Nu sunt un om nvat adug el i nu mi-e ruine s-o mrturisesc. Comentariu autorului ntr-un dialog poate fi marcat prin ncadrarea ntre linii explicative sau prin ncadrarea ntre virgule; nu se folosesc n acelai text ambele variante.

    Linia explicativ care introduce un comentariu, o explicaie i care poate fi nlocuit cu paranteze, ca n exemplul urmtor: Tocmai atunci vntorul, fcnd un gest cu mna ca i cum ar fi anunat c cedeaz rosti n englez, parc vorbind cu sine nsui: aceast fraz ar putea fi scris i n varianta n care se folosesc paranteze n locul liniilor explicative, astfel: Tocmai atunci vntorul, fcnd un gest cu mna (ca i cum ar fi anunat c cedeaz ), rosti n englez, parc vorbind cu sine nsui:

    Recomand ca liniile de pauz s fie marcate cu EnDash, aducnd urmtoarele argumente: argumentul 1 DOOM 2/2010 spune c Linia de pauz "Este mai lung dect cratima". argumentul 2 n Word, atunci cnd facem editare i introducem linia explicativ folosind cratima ncadrat de spaiu, editorul o transform automat n EnDash. argumentul 3 argument estetic: EnDash are limea unui caracter obinuit i arat elegant ca linie de pauz, timp n care cratima este prea mic i se pot produce confuzii, iar EmDash ncadrat de spaii este neelegant i mult prea mare. Este adevrat c n limba englez linia de pauz este redat prin Emdash, dar n acest caz linia este lipit de cuvintele alturate. argumentul 4 nu este indicat a se folosi Horizontal Bar pentru a marca liniile de pauz, deoarece pe multe eReadere, dar i n unele editoare, caracterul nu este redat corespunztor, ci este nlocuit cu semnul ntrebrii sau cu ptrel.

    8. nlocuiete toate liniile de dialog cu:

    EmDash EnDash Horizontal Bar.

  • Recomand ca liniile de dialog s fie marcate cu EmDash, aducnd urmtoarele argumente: argumentul 1 Prin prelucrrile fcute de opiunea "2.2. Corectare linii de pauz i linii de dialog", teoretic toate liniile de dialog sunt deja convertite n Emdash. Pstrarea n continuare a liniilor de dialog sub forma caracterului EmDash reduce aproape de zero timpul de rulare a opiunii, timp n care modificarea liniilor dedialog cu alt caracter mrete timpul de rulare, deoarece uneori sunt mii de linii de dialog ntr-un text i programul trebuie s realizeze cutarea i modificarea fiecrei linii n parte. argumentul 2 Linia de dialog nu poate fi redat prin cratim; acest lucru ar fi incorect din toate punctele de vedere i este complet inestetic. argumentul 3 Linia de dialog nu poate fi redat prin EnDash, deoarece linia de dialog trebuie s fie diferit i mai mare dect linia de pauz. argumentul 4 Dei liniile de dialog de tip Horizontal Bar arat foarte elegant, linia de dialog nu poate fi redat prin Horizontal Bar, deoarece pe multe eReadere, dar i n unele editoare, caracterul nu este redat corespunztor, ci este nlocuit cu semnul ntrebrii sau cu ptrel. argumentul 5 n regulile tipografice se arat c linia de dialog trebuie s aib limea a dou caractere obinuite; liniile care ndeplinesc aceast condiie sunt Horizontal Bar i EmDash; am explicat mai sus de ce nu se poate folosi Horizontal Bar, deci singura linie care ndeplinete toate condiiile este EmDash.

    Prerea mea personal este c nu trebuie s ne facem mari probleme n alegerea tipului de liniu n aceast etap a corecturii, deoarece liniile de dialog, ca i liniile de pauz, pot fi oricnd nlocuite prin comenzi foarte simple de Find&Replace n Word sau alt editor. Stabilirea tipului de linie de dialog, ca i nlocuirea spaiului de dup linia de dialog cu spaiu neseparator, in mai degrab de formatarea final a unui document corectat dect de precorectura unui OCR.

    Not: Dac dorim s printm pe hrtie un text [o carte] care conine linii de dialog,atunci recomand ca liniile de dialog s fie nlocuite cu Horizontal Bar, deoarece textultiprit astfel arat elegant. Dac documentul nu este destinat tipririi, ci folosirii i/sau prelucrrii i corectrii de alte persoane, atunci vom folosi EmDash.

    9. Elimin linii de pauz exclusiv din Dialoguri:

    9.1. nlocuiete "Spaiu_LiniePauz_Spaiu" n "Virgul_Spaiu". 9.2. Elimin virgula de dup semnul de exclamare/ntrebare. 9.3. nlocuiete "Spaiu_ LiniePauz _Virgul_Spaiu" n "Virgul_Spaiu"

    10. Elimin TOATE liniile de pauz din text

    10.1. din "!_Spaiu_ LiniePauz_Spaiu" n "!_Spaiu" 10.2. din "?_Spaiu_ LiniePauz_Spaiu" n "?_Spaiu" 10.3. din "Spaiu_ LiniePauz_Spaiu" n "Virgul_Spaiu" 10.4. din "Spaiu_ LiniePauz_Virgul_Spaiu" n "Virgul_Spaiu"

  • Apreciez c aceste dou opiuni pot fi tratate mpreun, deoarece au caracteristici comune. Ambele opiuni se refer la eliminarea liniilor de pauz din text i nlocuirea lor, dup caz, cu virgul, ori doar eliminarea fr a fi nlocuite cu un caracter anume. Ambele opiuni sunt opiuni pretenioase i de nalt finee. Practic modificrile pe care le fac aceste opiuni nu in de simpla curare a unui text de tip OCR, ci realizeaz o modificare important a modului de editare a textului. Acest drept nu e recomandat s fie folosit de un simplu utilizator care ncearc s reproduco carte din format clasic tiprit n format electronic, ci este dreptul editorilor de carte, al traductorilor i autorilor de carte. Recomand utilizatorilor, n special celor cu experien redus, s nu activeze niciuna dintre aceste opiuni. Eventuala activare a acestor opiuni sau doar a uneia dintre ele s fie fcut doar dup o profund analiz i doar de utilizatorii cu experien care in neaprat s fac astfel de modificri. Recomandare personal: setare INACTIV pentru ambele opiuni.

    11. RULARE GRUP DE DICIONARE NLOCUIRE MULTIPL

  • Aceast opiune este una special i trebuie analizat n detaliu. Opiunea permite rularea unui numr nelimitat de dicionare personale, altele dect cele 32 de dicionare care ruleaz obligatoriu n cadrul meniului. n funcie de experiena acumulat n corectura textelor, de aptitudinea de a remarca nlocuirile utile i aceea de structurare i editare a dicionarelor, fiecare utilizator poate edita i rula n cadrul acestei opiuni un numr nelimitatt de dicionarecu un numr nelimitat de nregistrri. Noile condiii ce le ofer fereastra de editare a dicionarelor de nlocuire multipl dau posibilitatea realizrii de dicionare deosebit de complexe, de mare funcionalitate. Modul de folosire a acestei opiuni poate face diferena dintre doi utilizatori ai programului i, respectiv diferena de calitate a currii unui text.

    La acest moment exist circa 30 de dicionare puse la dispoziia utilizatorilor sub forma a dou arhive, numite "Dicionare Uzuale" i "Dictionare Cifre romane". Dicionarele sunt structurate pe litere, dar unele dintre ele au foarte puine nregistrri. Toate aceste dicionare pot i trebuie s fie mbuntite prin adugarea de noi nregistrri. Practic, mbuntirea acestor dicionare sau a altora este nelimitat. Cu ct se vor aduga mai multe nregistrri n aceste dicionare, cu att textul va fi "curat" mai bine.

    Ce dicionare rulm n aceast piune? - acest lucru l stabilete fiecare utilizator. Cum se face adugarea dicionarelor ce vor fi rulate n cadrul opiunii? - acest lucru l vom clarifica n continuare.

    Activm [bifm] opiunea "11. Rulare grup de dicionare nlocuire multipl". Observm c opiunea aste prevzut cu opiuni de setare. Acionm butonul "opiuni" i se va deschide o fereastr de setare numit "Rulare dicionare", ca n imaginea de mai sus. n stnga ferestrei trebuie s fie afiat o list de dicionare, iar n partea dreapt a ferestrei, se pot observa poziionate unele sub altele 5 butoane.

    Mai nti ne vom referi la butonul al doilea "Adaug" i butonul al treilea "terge". Acionnd butonul "Adaug" se deschide o fereastr clasic de deschidere fiiere i putem aduga n list cte un dicionar sau un grup de dicionare. Dicionarele se pot afla n orice loc de pe hard disk, dar am convenit ca dicionarele suplimentare s fie salvate n folderul Dicionare\Dic_Speciale. Vpm aduga n list toate dicionarelepe care le considerm necesare. Acionnd butonul "terge" se poate elimina din list dicionarele pe care nu dorim s fie rulate. Pentru tergere nu se pot marca mai multe dicionare, deci tergerea dicionarelor se face tergnd cte un singur dicionar la fiecare apsare a butonului "terge" Important de reinut: dac un dicionar trecut n list a fost mutat sau redenumit, acest dicionar trebuie ters i apoi adugat la list de la noua adres sau cu noul nume, altfel programul nu va gsi dicionarul aflat n list i va da mesaj de eroare.

    La ce folosesc butoanele 4 "Mut sus" i 5 "Mut jos"? Uneori este obligatoriu ca o parte dintre dicionare s ruleze ntr-o anumit ordine,deoarece unele nlocuiri pot avea efect doar dac mai nti a fost fcut o alt

  • nlocuire. Lista de dicionare afiat n stnga ferestrei de setare arat i ordinea de rulare a dicionarelor. Pentru a modifica ordinea de afiare i respectiv de rulare a unor dicionare procedm astfel: marcm cu mausul dicionarul ce trebuie mutat mai sus sau mai jos n list i cu ajutorul butoanelor "Mut sus" sau "Mut jos" vom deplasa dicionarul pe poziia dorit.

    Dup stabilirea dicionarelor ce trebuie rulate i a ordinii de rulare, acionm primul buton, numit "Seteaz", salvnd astfel lista de dicionare ce vor fi rulate. Programul salveaz dicionarele, calea lor de cutare i ordinea de rulare n fiierul"ListaDictionare.txt" aflat n folderul AutoCorect Contemporan, respectiv AutoCorectClasic, unde se afl i folderul Dicionare. Dei nu are legtur cu opiunea, putem aminti c tot aici se mai afl un fiier important, numit "RulareAutomataOCRPlus.txt" n care se salveaz opiunile setate de utilizator ca active, ordinea lor i opiunile de setare. Aceste salvri se pstreaz pn la o nou modificare a setrilor sau o nou instalare a programului.

    Revenind la problema activrii acestei opiuni, recomandarea este una singur iferm: opiunea trebuie ACTIVAT obligatoriu.

    12. SETRI FINALE

    12.1. nlocuire spaiu dup linia de dialog cu spaiu neseparator 12.2. Corectare cuvinte rupte i nlocuiri cu confirmare

    12.1. nlocuire spaiu dup linia de dialog cu spaiu neseparator Opiunea este implementat prin cod, iar numele su este suficient de sugestiv. Programul nlocuielte spaiul obinuit de dup fiecare linie de dialog cu spaiu neseparator [Nonbreaking Space]. Rolul nlocuirii este unul estetic.

    Este important de reinut c aceast opiune se poate rula separat [fr accesarea ntregului meniu OCR Plus], i n cazul textelor corectate.

  • Prin corectarea manual este posibil s mai introducem linii de dialog n text, acolo unde nu au fost recunoscute de Abbyy, iar aceste linii de dialog s fie urmate despaiu obinuit. Dac vom avea un text rtf corectat i accesm n mod independent numai aceast opiune, textul nu va suferi alte modificri, ci se vor face doar nlocuirile spaiilor obinuite de dup linia de dialog i doar n poziiile n care este cazul.

    Sunt cteva opiuni care se pot accesa separat n orice moment al etapei de corectur i chiar dup corectur, fr a afecta structura textului i fr a produce modificri ce ar trenui verificate manual. De cele mai multe ori este necesar o rulare suplimentar a unora dintre aceste opiuni dup corectarea textului; aceste opiuni sunt urmtoarele: 1.1 Conversii preliminare >> Conversie dialog bullets n dialog text 1.3 Conversii preliminare >> Eliminare tab i spaii multiple 1.4 Conversii preliminare >> Eliminare spaii la nceput de paragraf 12.1 Setri finale >> nlocuire spaiu dup linia de dialog cu spaiu neseparator

    n afara de aceste 4 opiuni se mai pot rula cu oarece atenie i opiunile din pachetele 7 i 8. 7. nlocuiete toate liniile de pauz cu >> EmDash / EnDash / Horizontal Bar 8. nlocuiete toate liniile de dialog cu >> EmDash / EnDash / Horizontal Bar

    12.2. Corectare cuvinte rupte i nlocuiri cu confirmare Opiunea se bazeaz pe rularea a 4 dicionare de nlocuire multipl i a suferit de-alungul timpului mai multe modificri, fapt pentru care pare atipic, deoarece are doupri: partea care corecteaz "cuvintele rupte", adic acele cuvinte care apar scrise n mod eronat cu cratim, ca urmare a faptului c n cartea pe hrtie cuvintele erau desprite [rupte] la capt de rnd; corectarea acestor cuvinte se bazeaz pe rularea dicionarelor CO_Var1.imd CO_Var3.imd. partea care face nlocuiri cu confirmare i care ruleaz dicionarul CO_Var4.imd.

    Corectare cuvinte rupte n cartea pe hrtie, respectiv n imaginea scanat a unei pagini, o serie de cuvinte sunt desprite la capt de rnd. n aceste cazuri avem 3 elemente: prima parte a cuvntului, cratima i a doua parte a cuvntului. Dup cum este i normal, prima parte a cuvntului se afl la sfrit de rnd i este nsoit de cratima care marcheaz faptul c se face "ruperea" cuvntului; partea a doua a cuvntului ocup prima poziiepe rndul urmtor i nu este nsoit de cratim. Atunci cnd Abbyy face extragerea OCR, textul i schimb structura rndurilor, n sensul c rndurile pot fi, de regul, mai lungi dect cele din cartea original, astfelc unele dintre cuvintele rupte se vor afla undeva la mijlocul rndului i n mod corect ele trebuie s fie complete i fr cratim, deoarece Abbyy este instruit s lipeasc cele dou pri ale cuvntului rupt la capt de rnd i s elimina cratima care marcheaz desprirea.

  • Abbyy face recunoaterea corect a unora dintre aceste cuvinte, n sensul c n OCR cuvntul apare ntreg i fr cratim; n acelai OCR unele recunoateri se fac n mod eronat, astfel c respectivele cuvinte apar n text cu cratim; uneori cratima este lipit de ambele litere, alteori cratima este lipit doar de o parte a cuvntului i apare inserat un spaiu ntre cratim i cealalt parte a cuvntului.

    S presupunem c pe cartea tiprit, fraza urmtoare, n care apare cuvntul "trebuincioase", este scris astfel: "n urma acestei propuneri se apucar amndoi s pregteasc cele trebuin-cioase pentru prnzul zilnic."

    Cuvntul "trebuincioase" poate fi recunoscut de ctre Abbyy n mod corect, adicn forma: "n urma acestei propuneri se apucar amndoi s pregteasc cele trebuincioasepentru prnzul zilnic." sau poate fi recunoscut eronat n varianta cu cratima lipit de ambele pri ale cuvntului trebuin-cioase, ori n varianta n care cratima este lipit de o parte a cuvntului dar are inserat spaiu ntre cratim i cealalt parte a cuvntului, adic sub forma trebuin- cioase sau sub forma trebuin -cioase.

    Pn la acest moment, cele trei dicionare corecteaz cuvinte rupte n care cratima este lipit de ambele pri ale cuvntului; deocamdat nu se fac corecii pentru cuvinte la care este inserat i spaiu lng cratim. Numrul de nregistrri este nc destul de mic; coreciile care se fac sunt structurate astfel:

    Cu dicionarul CO_Var1.imd se fac n principal corecii ale unor verbe n forma de gerunziu; s-a luat n calcul desprirea ntre ultima i penultima silab i desprirea ntre penultima i antepenultima silab. Astfel, pentru cuvinte precum: necjindu-i, rotunjindu-le, vrjindu-ne...s-au fcut nregistrri cu condiiile "Cuvnt ntreg la sfrit" + "Potrivire perfect" -du-l du-l Ci Sc Pp -du-le du-le Ci Sc Pp -du-ne du-ne Ci Sc Pp

    sau nregistrarea de mai jos care are doar condiia "Potrivire perfect" -jindu- jindu- Pp

    Dicionarul CO_Var2.imd corecteaz cuvinte care au frecven mare n text i s-au luat n calcul toate posibilitile de desprire; Condiiile sunt " dum-neavoastr dumneavoastr Ci Pc dumnea-voastr dumneavoastr Ci Pc dumneavoas-tr dumneavoastr Ci Pc

    De regul, la acest dicionar au fost puse condiiile: "Cuvnt ntreg la ambele capete" + "Pstreaz capitalizarea", ceea ce nseamn c se vor face nlocuiri ale cuvintelor ntregi care pot fi scrise att cu minuscul, ct i cu majuscul

  • Dicionarul CO_Var3.imd face corecii pentru cuvinte compuse cu sufixe i care sunt rupte n zona final, deci la sfrit de cuvnt, cum ar fi exemplele de mai jos: -bilor bilor Ci Sc Pp -cilor cilor Ci Sc Pp -dilor dilor Ci Sc Pp Ca i n cazul primului dicionar, condiiile folosite sunt "Cuvnt ntreg la sfrit" + "Potrivire perfect".

    nlocuiri cu confirmare Dicionarul CO_Var4.imd, care este i ultimul ce ruleaz n cadrul meniului OCR Plus, execut numai modificri cu confirmare. Pentru fiecare situaie gsit n text de computer care ndeplinete condiiile i poate fi modificat, este necesar acceptul sau refuzul utilizatorului. nregistrrile sunt prevzute cu condiii speciale, care reduc cutrile la situaii foarte concrete. Astfel, unele cutri se vor face doar ntre cuvinte scrise cu orice liter minuscul, dar nu i cifre etc... Aceste condiii puse nregistrrilor vor fi analizate n mod special atunci cnd vom discuta modul de editare a dicionarelor de nlocuire multipl.

    n principiu, au fost mutate n acest dicionar toate nregistrrile care necesitau confirmare, chiar dac unele nregistrri ar fi trebuit s ruleze la alte opiuni. Scopul mutrii nregistrrilor a fost acela de a evita ntreruperea rulrii programului la diferite opiuni pentru obinerea confirmrilor; s-a considerat c este mai comod pentru utilizator ca programul s ruleze n mod continuu i toate interveniile utilizatorului s fie fcute n partea final a procesrii.

    Exist patru categorii de modificri cu confirmare nregistrate n dicionar, astfel:

    cuvinte foarte scurte scrise eronat cu majuscul iniial sau final n interiorulfrazei: Cu >> cu, CU >> cu, i >> i, Un >> un, aI >> al, aI >> ai, Ia >> la, I-a >> l-a, ou >> cu, ou >> eu. Aceste situaii este posibil s nu apar n anumite texte, dar pot exista n altele, n funcie de calitatea OCR.

    patru nregistrri ce in de corectarea cifrei 1 cu litera L mic i a cifrei 0 cu litera O mic; cifrele 1 sau 0 trebuie s fie lipite de o cratim, care la rndul ei este lipit de orice liter mic, dar nu i de o cifr. nregistrrile au fost mutate din dicionarele care rulau la opiunea 4.2 pentru a nu opri rularea programului la acea opiune pentru cererea confirmrilor. 1 >> -l, -1 >> -l, 0 >> -o, -0 >> -o Teoretic, nlocuirea cifrelor 1 i 0 cu literele L mic i O mic sunt rezolvate n totalitate la opiunea 4.2. Aceste nregistrri au fost puse pentru situaii excepionale, ca o msur de siguran n plus, astfel c n mod normal ele nu ar trebui s apar la rularea opiunii.

    perechi de cuvinte asemntoare ca form [paronime], care nu pot fi modificate fr confirmare deoarece este posibil ca n text s fie valabil oricare

  • dintre cele dou forme ale cuvntului. clac >> dac, clar >> dar, clin >> din, cldea >> ddea, lot >> tot, lotul >> totul, miner >> mner, minerul >> mnerul. Mai mult ca sigur o parte dintre aceste nregistrri, dac nu chiar toate, vor gsi n text situaii care ndeplinesc condiiile cutate, astfel c utilizatorul va trebui s confirme sau s infirme modificrile propuse de program.

    elemente scurte ce in de dialogul francez, care nu se pot modifica fr acceptul utilizatorului i care au fost mutate din dicionarul de la opiunea 4.7 pentru a nu ntrerupe programul pentru cereri de confirmare. ! I >> ! i, ! Le >> ! le, ! O >> ! o, ! Se >> ! se, ? I >> ? i, ? Le >> ? le, ? O >> ?o, ? Se >> ? se. Aa cum am artat la opiunea 4.7, utilizatorii care nu au activat opiunea 4.7, pentru aceste 8 nregistrri, n fereastra de confirmare vor aciona butonul "Renun" pentru ca programul s renune la cutri i nlocuiri.

    Recomandare personal: setare ACTIV

    DEMARCARE TEXT

    Aceasta este ultima opiune pe care o ofer meniul OCR Plus i nu ruleaz automat, ci separat i independent de celelalte opiuni. Opiunea trebuie rulat doar n situaiile n care avem n text marcri color ale fontului sau fundalului i dorim s renunm la acestea. Trebuie reinut c fontul poate fi marcat color n urmtoarele situaii: - dac textul iniial coninea font color, iar la opiunea "1.2 Conversii preliminare >> Setare text la font i mrime unic" nu s-a stabilit uniformizarea textului la culoarea Negru. Situaii de acest gen sunt foarte rare. - dac a fost activat opiunea "5. Marcare caractere"

    Fundal marcat color poate exista ntr-o singur situaie: - dac cel puin unul dintre dicionare are activat condiia de marcare a modificrilor executate. n mod sigur niciunul dintre cele 32 dicionare care ruleaz automat nu are aceast condiie. De asemenea, niciunul dintre dicionarele suplimentare nu trebuie s aib aceast condiie. Dac am scpat vreun dicionar cu aceast condiie activ, atunci este o eroare i activarea a rmas din perioada executrii testrii acestor dicionare.

    La accesarea acestei opiuni din meniul OCR Plus se va deschide o fereastr ca n imaginea de mai jos. Dup executarea demarcrilor dorite, nchidem manual fereastra, acionnd butonul "X" din colul dreapta-sus al ferestrei, deoarece fereastra nu se nchide n mod automat.

    Ce mai trebuie s reinem? Trebuie s inem minte culorile pe care le-am folosit la marcarea textului, deoarece opiunea cere s "spunem" ce anume culoare are fontul sau fundalul cruia

  • trebuie s-i anuleze [s-i tearg] marcarea. Acest lucru e valabil doar n cazurile n care vrem s facem demarcarea doar pentru o parte dintre marc. Dac dorim s demarcm toate culorile de fundal sau toate culorile de font, atuncinu marcm nici o culoare ci doar acionm butonul "Demarcare text" sau "Demarcarefundal".

    Trebuie s mai rein c demarcare de culoare a fontului sau a fundalului se face, de regul, pe timpul corecturii i nu neaprat n mod automat folosind aceast opiune, deoarece marcarea are ca scop scoaterea n eviden a anumitor elemente care s fie de ajutor pe timpul corecturii.

    PRECIZRI FINALE

    Ce-ar mai fi folositor s fie spus dup prezentarea fiecrei opiuni? Sper s nu fi uitat ceva...

    Trebuie s reamintim c AutoCorect OCR Plus nu face corectur, ci doar o curare a textului care are ca scop uurarea muncii de corectare i nu nlocuirea acestei munci. Trebuie reamintit faptul c n mod obligatoriu dup rularea opiunilor din meniul OCR Plus trebuie s urmeze corectur manual prin citirea cuvnt cu c