/**/
Posizionamento motori di ricerca Cliccalinca realizza il tuo Sito Internet personalizzato.
Cliccalinca servizi di digitalizzazione documenti, riconoscimento ottico dei caratteri (OCR)
Cliccalinca servizi di digitalizzazione documenti, riconoscimento ottico dei caratteri (OCR)
ContattiContatti

Guida per digitalizzare documenti

Presupposti

Negli ultimi anni è emerso un interesse sempre più crescente verso la digitalizzazione di documenti cartacei, operazione che ne permette una migliore conservazione nel tempo e apre le porte a tutti i benefici offerti dal formato digitale.

Il primo passo per trasformare un archivio cartaceo in uno digitale è la scansione dei documenti tramite scanner.
Il risultato è una “fotografia” del documento cartaceo che viene così trasformato in file di immagine, come jpg, tif, png, gif.

Il vantaggio della digitalizzazione del documento deriva non tanto dalla scansione in sè, quanto dalla possibilità di trasformare i files immagine acquisiti in testo editabile, dello stesso tipo di quelli prodotti da un software per la videoscrittura, word, excel o pdf. Potremo cioè trattare questo documento digitalizzato come un normale documento di testo digitale, nel quale si potranno effettuare ricerche, sostituire parole, selezionare una parte del testo, copiarla e utilizzarla altrove, e tutte quella serie di operazioni che in genere facciamo con un documento di testo digitale.
Questa operazione viene effettuata utilizzando la tecnologia OCR (Optical Character Recognition), ovvero Riconoscimento Ottico dei Caratteri.

Riconoscimento ottico dei caratteri (OCR)

L'OCR è una tecnica digitale utilizzata per capire quali siano i caratteri presenti all'interno di una foto o immagine. Il programma di riconoscimento ottico dei caratteri analizza l'immagine restituita dallo scanner cercandovi le “forme” delle lettere dell'alfabeto, e ricostruendole poi, carattere per carattere, fino a formare il testo del documento originale.

Problemi della digitalizzazione di testi

Sul mercato è oggi disponibile una gran varietà di OCR. Quasi tutti i nuovi scanner includono un programma di riconoscimento caratteri. Altrimenti, esistono OCR a pagamento o scaricabili gratuitamente, che possono essere impiegati attraverso i sistemi operativi più diffusi, a supporto degli scanner che ne sono sprovvisti. Il numero di OCR che sappiano coniugare semplicità d'uso con efficienza ed efficacia in fase di riconoscimento dei caratteri è, però, piuttosto limitato. Soprattutto se di basso prezzo.
Sono, infatti, diverse le incognite quando si va a leggere un documento mediante OCR.
Ci sono software ormai molto evoluti e affidabili ma non esiste un prodotto di riconoscimento caratteri che garantisca il risultato corretto al 100%. Bisogna sempre tener conto di una certa, inevitabile percentuale di errori nel file di testo risultante dall'elaborazione OCR.
La maggior parte dei problemi sorge in presenza di aree miste con testo e grafica. La qualità della stampa, la qualità della scansione, la qualità ed il colore della carta, le eventuali retinature delle aree colorate, la filigrana della carta, il corpo dei caratteri, i font utilizzati, la chiarezza del carattere, l'allineamento delle righe, il contrasto dell'immagine e numerose altre variabili possono incidere sulla qualità del risultato che, quindi in generale, dipende strettamente dalla qualità del documento originale trattato.
Se il documento originale non è in perfette condizioni (ad esempio ha pagine sbiadite o deteriorate) capita regolarmente che l'OCR possa mal interpretare i caratteri e restituire un documento di testo che potrebbe contenere così tanti errori di lettura da essere inutilizzabile.

Classificazione degli errori commessi dagli OCR

  • Errori d'ortografia: la parola rilevata non appartiene a nessun vocabolario (“nen” al posto di non). E' un errore molto comune che può essere rilevato con un controllo dell'ortografia;
  • errori di sillabazione: la parola è spezzata, (“in-formazione”) errore comune in articoli di giornale;
  • riconoscimento errato dei caratteri: il deterioramento del documento o alcuni stili di scrittura particolari possono indurre ad una errata interpretazione dei caratteri (“bibñoteca” anzichè “biblioteca”);
  • errori di punteggiatura: il deterioramento del documento o alcuni stili di scrittura particolari possono indurre ad una errata interpretazione della punteggiatura (ad esempio scambiare punti con virgole);
  • errori di ambiguità di significato: il riconoscimento errato di alcuni caratteri potrebbe generare nuove parole corrette dal punto di vista ortografico ma semanticamente fuori contesto (ad esempio “quest'auto fa le pizze” anzichè “quest'auto fa le bizze”);
  • distruzione del contenuto: la contemporaneità di più errori all'interno di un'unica stringa potrebbe portare ad un errore di distruzione del contenuto (ad esempio “§Gor·ia” al posto di “editoria”)

Le nostre soluzioni

Appare quindi evidente che alcuni degli errori elencati sono correggibili con ulteriori procedure automatiche e programmi, altri potrebbero esserlo adottando tecniche atte a verificare la correlazione tra caratteri successivi o la semantica della frase, altri infine non lo sono.
Unica soluzione per il caso di errori non correggibili è la tediosa procedura manuale, ovvero l'attività di un revisore che, con pazienza certosina, confronti manualmente il testo originale con quello acquisito alla ricerca degli errori.

Digitalizzazione documenti cartacei e testi editabili e ricercabili

Cliccalinca è in grado di eseguire scansioni di qualità elevata, attraverso l'utilizzo di tecniche professionali specifiche, che permettono di ottenere un buon documento digitale e far sì che questo sia più facilmente riconoscibile dal software OCR, riducendone il margine d'errore.

Contattaci per ulteriori informazioni.

Studio grafico a Parma Web agency, a parma, reggio emilia, modena Realizzazione siti wordpress a Parma Siti web Preventivo sito internet Promozione e realizzazione siti internet
Agenzia di comunicazione che opera in Emilia Romagna nelle provincie di Parma, Reggio Emilia, Cremona, Piacenza e Mantova sei in:
Chi è CliccalincaChi è Cliccalinca
Grafica pubblicitaria
Grafica pubblicitariaGrafica pubblicitaria
Siti internetSiti internet
Web design/web developer
Servizi multimedia
Preventivo

Richiedo gratuitamente un preventivo per:

N.B.: se non sei un'azienda scrivi "PRIVATO"

*Dichiaro di aver letto l'informativa sulla privacy e autorizzo il trattamento dei miei dati personali

Inserisci i caratteri che vedi nell'immagine
E' necessario compilare tutti i campi contrassegnati con *
Content

OFFERTE, SCONTI, PROMOZIONI

Offerta siti economici pronti all'uso

Siti Web a prezzi bassi

I nostri Siti Web Entry Level hanno un prezzo incredibile, ideali per coloro che vogliono entrare in internet con un piccolo investimento.

Sito per smartphone e tablet in promozione

Sito web per smartphone e tablet in promozione

Hai un sito web ma non hai la versione mobile? Rendi il tuo sito accessibile anche da Smartphone e Tablet.
Ti offriamo la realizzazione della versione mobile del tuo sito web tradizionale a soli 450euro !!!

Siti Web economici per associazioni

Per alcune particolari categorie di clienti, come associazioni di volontariato, culturali o no-profit offriamo prezzi scontati fino al 50% sul preventivo proposto.

Sconto rottamazione vecchio sito

Rottamazione vecchio Sito Web

Se hai un sito internet obsoleto e tecnologicamente superato, ti offriamo uno sconto fino al 20% sul restyling (parziale o totale) del vostro vecchio sito o sulla realizzazione di un sito nuovo, più moderno e funzionale!!!

Offerta digitalizzazione diapositive

Offerta digitalizzazione diapositive

Se il tuo archivio di diapositive e pellicole sta esplodendo approfitta della promozione. Digitalizza le tue diapositive a un prezzo speciale!

Content

Richiedo un preventivo gratuito per:

N.B.: se non sei un'azienda scrivi "PRIVATO"


*Dichiaro di aver letto l'informativa sulla privacy e autorizzo il trattamento dei miei dati personali

Inserisci i caratteri che vedi nell'immagine
E' necessario compilare tutti i campi contrassegnati con *