Caratteri errati nelle proprietà del documento da file PDF

Se si hanno problemi con i valori delle proprietà del documento che vengono estratti dal file PDF utilizzando Plug-in ProcessDirector di RICOH per Adobe Acrobat, i font inclusi nel file PDF potrebbero essere incompleti o contenere mappature UNICODE diverse da quelle che ci si aspetta.

Il processo di visualizzazione o stampa di contenuti utilizzando font su pagine PDF può utilizzare una varietà di codifiche. Il processo di estrazione del testo da una pagina PDF richiede una mappatura UNICODE da un carattere di pagina codificato ad un punto di codice Unicode.

Per estrarre il contenuto da PDF a UNICODE, i font includono una tabella che associa ogni carattere PDF al suo equivalente UNICODE. Alcuni font includono più caratteri simili. Per esempio, un font può includere un trattino, un segno meno e un trattino. Anche se sembrano molto simili, ognuno di essi è un carattere diverso e viene disegnato in modo leggermente diverso. Ognuno ha anche un codice UNICODE diverso. La tabella di mappatura determina quale carattere UNICODE viene utilizzato.

Quando RICOH ProcessDirector estrae i valori delle proprietà del documento da un file PDF utilizzando un file di controllo creato in Plug-in ProcessDirector di RICOH per Adobe Acrobat, legge il valore in UNICODE. Quindi il valore viene registrato nel Document Properties File (DPF), che richiede la codifica dei dati nel formato UTF-8. Il formato UTF-8 utilizza sequenze di caratteri a più byte per rappresentare i punti di codice UNICODE al di fuori dell'intervallo di codifica ASCII. Come risultato, il valore viene convertito nel carattere equivalente UNICODE quando viene aggiunto al file DPF.

Possono verificarsi problemi quando i valori del DPF vengono scritti nuovamente nel file PDF. Se i caratteri UNICODE non hanno equivalenti PDF nel font, vengono inseriti caratteri errati. Questi problemi si verificano più spesso con i font sottoinsieme e Identity-H. Ulteriori problemi possono verificarsi quando si cercano caratteri espliciti, ma i punti di codice UNICODE nel DPF non sono i caratteri previsti.

La soluzione ideale è quella di aggiornare il file PDF di input in modo che includa font completi invece che sottoinsiemi. Un'altra opzione è quella di aggiungere un passaggio al flusso di lavoro che corregge le proprietà del DPF. L'utilità native2ascii può essere utilizzata per normalizzare il file DPF in una codifica dei caratteri ASCII. I punti di codice UNICODE che sono stati codificati come UTF-8, saranno normalizzati in un modulo \u####. Un editor o uno script filtro può essere utilizzato per cambiare il carattere del problema da UNICODE \u#### al carattere ASCII effettivamente richiesto. Una volta aggiornata la versione ASCII del DPF, l'utilità native2ascii verrebbe utilizzata per riconvertire il DPF nella codifica UTF-8 richiesta.

L'utilità native2ascii converte il testo in Unicode Latin-1. Viene fornita insieme a RICOH ProcessDirector.

  • In Linux, il programma di utilità native2ascii è memorizzatoa in: /opt/infoprint/ippd/jre/bin
  • In Windows, l'utilità native2ascii.exe è memorizzata in: C:\Program Files\Ricoh\Ricoh\jre\jre\jre\bin

L'utilità viene fornita con il Java Development Kit, che è possibile scaricare da questo sito Web: http://www.oracle.com/technetwork/java/javase/downloads

Le istruzioni per l'utilizzo dell'utilità (per Java 6) sono disponibili qui di seguito: http://download.oracle.com/javase/6/docs/technotes/tools/#intl