Guida per digitalizzare documenti
Presupposti
Negli ultimi anni è emerso un interesse sempre più crescente verso la digitalizzazione di documenti cartacei, operazione che ne permette una migliore conservazione nel tempo e apre le porte a tutti i benefici offerti dal formato digitale.
Il primo passo per trasformare un archivio cartaceo in uno digitale è la scansione dei documenti tramite scanner.
Il risultato è una “fotografia” del documento cartaceo che viene così trasformato in file di immagine, come jpg, tif, png, gif.
Il vantaggio della digitalizzazione del documento deriva non tanto dalla scansione in sè, quanto dalla possibilità di trasformare i files immagine acquisiti in testo editabile, dello stesso tipo di quelli prodotti da un software per la videoscrittura, word, excel o pdf. Potremo cioè trattare questo documento digitalizzato come un normale documento di testo digitale, nel quale si potranno effettuare ricerche, sostituire parole, selezionare una parte del testo, copiarla e utilizzarla altrove, e tutte quella serie di operazioni che in genere facciamo con un documento di testo digitale.
Questa operazione viene effettuata utilizzando la tecnologia OCR (Optical Character Recognition), ovvero Riconoscimento Ottico dei Caratteri.
Riconoscimento ottico dei caratteri (OCR)
L'OCR è una tecnica digitale utilizzata per capire quali siano i caratteri presenti all'interno di una foto o immagine. Il programma di riconoscimento ottico dei caratteri analizza l'immagine restituita dallo scanner cercandovi le “forme” delle lettere dell'alfabeto, e ricostruendole poi, carattere per carattere, fino a formare il testo del documento originale.
Problemi della digitalizzazione di testi
Sul mercato è oggi disponibile una gran varietà di OCR. Quasi tutti i nuovi scanner includono un programma di riconoscimento caratteri. Altrimenti, esistono OCR a pagamento o scaricabili gratuitamente, che possono essere impiegati attraverso i sistemi operativi più diffusi, a supporto degli scanner che ne sono sprovvisti. Il numero di OCR che sappiano coniugare semplicità d'uso con efficienza ed efficacia in fase di riconoscimento dei caratteri è, però, piuttosto limitato. Soprattutto se di basso prezzo.
Sono, infatti, diverse le incognite quando si va a leggere un documento mediante OCR.
Ci sono software ormai molto evoluti e affidabili ma non esiste un prodotto di riconoscimento caratteri che garantisca il risultato corretto al 100%. Bisogna sempre tener conto di una certa, inevitabile percentuale di errori nel file di testo risultante dall'elaborazione OCR.
La maggior parte dei problemi sorge in presenza di aree miste con testo e grafica. La qualità della stampa, la qualità della scansione, la qualità ed il colore della carta, le eventuali retinature delle aree colorate, la filigrana della carta, il corpo dei caratteri, i font utilizzati, la chiarezza del carattere, l'allineamento delle righe, il contrasto dell'immagine e numerose altre variabili possono incidere sulla qualità del risultato che, quindi in generale, dipende strettamente dalla qualità del documento originale trattato.
Se il documento originale non è in perfette condizioni (ad esempio ha pagine sbiadite o deteriorate) capita regolarmente che l'OCR possa mal interpretare i caratteri e restituire un documento di testo che potrebbe contenere così tanti errori di lettura da essere inutilizzabile.
Classificazione degli errori commessi dagli OCR
- Errori d'ortografia: la parola rilevata non appartiene a nessun vocabolario (“nen” al posto di non). E' un errore molto comune che può essere rilevato con un controllo dell'ortografia;
- errori di sillabazione: la parola è spezzata, (“in-formazione”) errore comune in articoli di giornale;
- riconoscimento errato dei caratteri: il deterioramento del documento o alcuni stili di scrittura particolari possono indurre ad una errata interpretazione dei caratteri (“bibñoteca” anzichè “biblioteca”);
- errori di punteggiatura: il deterioramento del documento o alcuni stili di scrittura particolari possono indurre ad una errata interpretazione della punteggiatura (ad esempio scambiare punti con virgole);
- errori di ambiguità di significato: il riconoscimento errato di alcuni caratteri potrebbe generare nuove parole corrette dal punto di vista ortografico ma semanticamente fuori contesto (ad esempio “quest'auto fa le pizze” anzichè “quest'auto fa le bizze”);
- distruzione del contenuto: la contemporaneità di più errori all'interno di un'unica stringa potrebbe portare ad un errore di distruzione del contenuto (ad esempio “§Gor·ia” al posto di “editoria”)
Le nostre soluzioni
Appare quindi evidente che alcuni degli errori elencati sono correggibili con ulteriori procedure automatiche e programmi, altri potrebbero esserlo adottando tecniche atte a verificare la correlazione tra caratteri successivi o la semantica della frase, altri infine non lo sono.
Unica soluzione per il caso di errori non correggibili è la tediosa procedura manuale, ovvero l'attività di un revisore che, con pazienza certosina, confronti manualmente il testo originale con quello acquisito alla ricerca degli errori.
Cliccalinca è in grado di eseguire scansioni di qualità elevata, attraverso l'utilizzo di tecniche professionali specifiche, che permettono di ottenere un buon documento digitale e far sì che questo sia più facilmente riconoscibile dal software OCR, riducendone il margine d'errore.
Contattaci per ulteriori informazioni.
|