Falsche Zeichen in den Dokumenteigenschaften von PDF-Dateien

Wenn Sie Probleme mit Dokumentmerkmalwerten haben, die aus PDF-Dateien mit RICOH ProcessDirector-Plugin für Adobe Acrobat extrahiert werden, können die in der PDF-Datei enthaltenen Schriften unvollständig sein oder andere UNICODE-Zuordnungen enthalten als Sie erwarten.

Der Prozess der Anzeige oder des Drucks von Inhalten mit Schriftart auf einer PDF-Seite kann eine Vielzahl von Kodierungen verwenden. Der Prozess der Extraktion von Text aus einer PDF-Seite erfordert ein UNICODE-Mapping von einem kodierten Seitenzeichen auf einen Unicode-Codepunkt.

Um Inhalte aus PDF nach UNICODE zu extrahieren, enthalten Schriften eine Tabelle, die jedes PDF-Zeichen auf sein UNICODE-Äquivalent abbildet. Einige Schriftarten enthalten mehrere identische Zeichen. Eine Schriftart kann z. B. einen Gedankenstrich, ein Minuszeichen und einen Bindestrich enthalten. Obwohl sie sehr ähnlich erscheinen, ist jeder von ihnen ein anderer Charakter und wird etwas anders geschrieben. Jeder von ihnen hat auch einen anderen UNICODE-Codepoint. Die Zuordnungstabelle bestimmt, welches UNICODE-Zeichen verwendet wird.

Wenn RICOH ProcessDirector die Dokumentmerkmalwerte aus einer PDF-Datei mithilfe einer in RICOH ProcessDirector-Plugin für Adobe Acrobat erstellten Steuerdatei extrahiert, wird der Wert in UNICODE gelesen. Anschließend wird der Wert in der Document Properties File (DPF) aufgezeichnet, die eine Kodierung der Daten im UTF-8-Format erfordert. Das UTF-8-Format verwendet Multibyte-Zeichenfolgen, um UNICODE-Codepoints außerhalb des ASCII-Kodierungsbereichs darzustellen. Dadurch wird der Wert beim Hinzufügen zur DPF-Datei in das UNICODE-Äquivalenzzeichen konvertiert.

Probleme können auftreten, wenn Werte aus dem DPF in die PDF-Datei zurückgeschrieben werden. Wenn die UNICODE-Zeichen keine PDF-Äquivalente in der Schriftart haben, werden falsche Zeichen eingefügt. Diese Probleme treten am häufigsten bei untergeordneten und Identity-H-Schriften auf. Zusätzliche Probleme können bei der Suche nach expliziten Zeichen auftreten, aber die UNICODE-Codepoints im DPF sind nicht die erwarteten Zeichen.

Die ideale Lösung ist, die PDF-Eingabedatei so zu aktualisieren, dass sie anstelle von Teilmengen komplette Schriften enthält. Sie können jedoch auch Ihrem Workflow einen Schritt hinzufügen, der die DPF-Eigenschaften korrigiert. Das native2ascii-Dienstprogramm kann verwendet werden, um die DPF-Datei auf eine ASCII-Zeichenkodierung zu normalisieren. Die UNICODE-Codepoints, die als UTF-8 kodiert wurden, werden in das Formular \u#### normalisiert. Mit einem Editor oder einem Filterskript kann das Problemzeichen vom UNICODE \u#### auf das aktuell benötigte ASCII-Zeichen geändert werden. Sobald die ASCII-Version des DPF aktualisiert ist, wird mit dem native2ascii-Dienstprogramm das DPF wieder in die erforderliche UTF-8-Kodierung konvertiert.

Das Dienstprogramm native2ascii konvertiert Text in Unicode Latin-1. Es wird mit RICOH ProcessDirector geliefert.

  • Auf Linux ist das native2ascii-Dienstprogramm gespeichert unter: /opt/infoprint/ippd/jre/bin.
  • Auf Windows ist das native2ascii.exe-Dienstprogramm gespeichert unter: C:\Program Files\Ricoh\ProcessDirector\jre\bin\bin

Das Dienstprogramm wird auch zusammen mit dem Java Development Kit bereitgestellt, das Sie von folgender Website herunterladen können: http://www.oracle.com/technetwork/java/javase/downloads

Anleitungen zur Verwendung des Dienstprogramms (für Java 6) finden Sie hier: http://download.oracle.com/javase/6/docs/technotes/tools/#intl