PDFファイルの文書プロパティーで不適な文字

RICOH ProcessDirector Plug-in for Adobe Acrobatを使用してPDFファイルから抽出される文書プロパティー値に問題がある場合、PDFファイルに含まれるフォントが不完全であるか、予想と異なるUNICODEマッピングが含まれている可能性があります。

PDFページのフォントを使用してコンテンツを表示または印刷する処理では、さまざまなエンコードを使用できます。PDFページからテキストを抽出する処理では、エンコードされたページ文字からUnicodeコードポイントへのUNICODEマッピングが必要です。

PDFからUNICODEにコンテンツを抽出するには、フォントには、各PDF文字を同等のUNICODEにマップするテーブルが含まれます。一部のフォントには、外観が似ている文字が複数含まれています。例えば、フォントには、ダッシュ、マイナス記号、ハイフンを含んでいる場合があります。このような文字は外観が非常に似ていますが、それぞれ異なる文字であり、その外観の差はわずかです。それぞれに異なるUNICODEコードポイントがあります。マッピングテーブルは、使用するUNICODE文字を決定します。

RICOH ProcessDirector Plug-in for Adobe Acrobatで作成された制御ファイルを使用してPDFファイルから文書プロパティー値をRICOH ProcessDirectorが抽出すると、UNICODEの値が読み込まれます。次に、値が文書プロパティーファイル(DPF)に記録され、このファイルは、データをUTF-8形式でエンコードする必要があります。UTF-8形式では、マルチバイト文字シーケンスを使用して、ASCIIエンコード範囲外のUNICODEコードポイントを表します。その結果、値はDPFファイルに追加されると、UNICODEの対応する文字に変換されます。

DPFの値をPDFファイルに書き戻すと、問題が発生する可能性があります。UNICODE文字に相当するPDFフォントがない場合、不敵な文字が挿入されます。これらの問題は、サブセットおよびIdentity-Hフォントで最も頻繁に発生します。明示的な文字を検索するときに、DPFのUNICODEコードポイントが予期された文字ではない場合は、別の問題が発生することがあります。

理想的な解決策は、サブセットではなく完全なフォントを含むように入力PDFファイルを更新することです。また、DPFプロパティーを修正するステップをワークフローに追加することもできます。native2asciiユーティリティーを使用すると、DPFファイルをASCII文字エンコーディングに正規化できます。UTF-8としてエンコードされたUNICODEコードポイントは、\u####形式に正規化されます。エディターまたはフィルタースクリプトを使用して、問題の文字をUNICODE \u#### から必要な実際のASCII文字に変更できます。DPFのASCIIバージョンが更新されると、native2asciiユーティリティーを使用してDPFを必要なUTF-8エンコーディングに変換し直します。

native2ascii ユーティリティーはテキストを Unicode Latin-1 に変換します。これは、RICOH ProcessDirector とともに出荷されます。

  • Linuxの場合、native2asciiユーティリティーは /opt/infoprint/ippd/jre/bin に保存されています。
  • Windows の場合、native2ascii.exeユーティリティーは C:\Program Files\Ricoh\ProcessDirector\jre\bin に保存されています。

このユーティリティーはJava開発キットにも付属しています。このキットは、このサイトからダウンロードできます。http://www.oracle.com/technetwork/java/javase/downloads

ユーティリティーの使用方法(Java 6の場合)は次のとおりです。 http://download.oracle.com/javase/6/docs/technotes/tools/#intl