Caracteres incorrectos en las propiedades del documento a partir de archivos PDF

Si tiene problemas con los valores de las propiedades de los documentos que se extraen de los archivos PDF utilizando Plug-in RICOH ProcessDirector para Adobe Acrobat, las fuentes incluidas en el archivo PDF podrían estar incompletas o contener asignaciones de UNICODE diferentes de las que espera.

El proceso de mostrar o imprimir contenido utilizando tipos de letra de páginas PDF puede utilizar varias codificaciones. El proceso de extracción de texto de una página PDF requiere una asignación UNICODE desde un carácter de página codificado a un punto de código Unicode.

Para extraer contenido de PDF a UNICODE, las fuentes incluyen una tabla que asigna cada carácter de PDF a su equivalente en UNICODE. Algunas fuentes incluyen varios caracteres parecidos. Por ejemplo, una fuente puede incluir una raya, un signo menos y un guión. Aunque parecen muy similares, cada uno es un carácter diferente y se dibuja ligeramente diferente. Cada uno de ellos tiene un punto de código UNICODE diferente. La tabla de asignación determina qué carácter UNICODE se utiliza.

Cuando RICOH ProcessDirector extrae valores de propiedades de documento de un archivo PDF utilizando un archivo de control creado en Plug-in RICOH ProcessDirector para Adobe Acrobat, lee el valor en UNICODE. A continuación, el valor se registra en el Archivo de propiedades de documento (DPF), que requiere que los datos estén codificados en formato UTF-8. El formato UTF-8 utiliza secuencias de caracteres de varios bytes para representar puntos de código UNICODE fuera del rango de codificación ASCII. Como resultado, el valor se convierte al carácter equivalente de UNICODE cuando se añade al archivo DPF.

Pueden surgir problemas cuando los valores del DPF se vuelven a escribir en el archivo PDF. Si los caracteres de UNICODE no tienen equivalentes PDF en la fuente, se insertan caracteres incorrectos. Estos problemas ocurren más a menudo con fuentes agrupadas en un conjunto y fuentes Identity-H. Pueden surgir problemas adicionales cuando se buscan caracteres explícitos, pero los puntos de código de UNICODE en el DPF no son los caracteres esperados.

La solución ideal es actualizar el archivo PDF de entrada para que incluya fuentes completas en lugar de fuentes agrupadas en un conjunto. Otra opción es añadir un paso a su flujo de trabajo que corrija las propiedades del DPF. La utilidad nativa2ascii puede usarse para convertir el archivo DPF a una codificación de caracteres ASCII. Los puntos de código de UNICODE que fueron codificados como UTF-8, serán convertidos a una forma \u######. Se puede utilizar un editor o un script de filtro para cambiar el carácter problemático del UNICODE \u##### al carácter ASCII real requerido. Una vez que se actualiza la versión ASCII del DPF, se utiliza la utilidad nativa2ascii para volver a convertir el DPF a la codificación UTF-8 requerida.

La utilidad native2ascii convierte el texto en Unicode Latin-1. Se incluye con RICOH ProcessDirector.

  • En Linux, la utilidad nativa2ascii se almacena en: /opt/infoprint/ippd/jre/bin
  • En Windows, la utilidad nativa2ascii.exe se almacena en: C:\Program Files\Ricoh{ProcessDirector\jrejbin

La utilidad también se incluye con Java Development Kit, que puede descargar de este sitio: http://www.oracle.com/technetwork/java/javase/downloads

Aquí encontrará las instrucciones de uso de la utilidad (para Java 6): http://download.oracle.com/javase/6/docs/technotes/tools/#intl