前回は、PDF ファイルに大きく分けて、MS Office などで作成したファイルを PDF で出力したもの と、紙面に印字されたものをスキャンして PDF として保存したもの の 2 種類があるという話をしました。実際には、PDF ファイルにはもうひとつ別のタイプがあります。
もうひとつの別のタイプというのは、紙面に印字されたものをスキャンして PDF として保存したもの に、その原稿をスキャンしたときに光学文字認識(OCR)も同時におこない、その文字データも込みで PDF ファイルとして保存したファイルになります。
このタイプのファイルは 透明テキスト付き PDF と呼ばれています。このタイプの PDF はファイルを開くと、パット見には紙面に印字されたものをスキャンして PDF として保存したもの と同じタイプのファイルのように見えます。
† : 拡大すると、このようにフォントの輪郭が不明瞭になったり、ギザギザに表示されたりします
このタイプの PDF は、見た目は紙面に印字されたものをスキャンして PDF として保存したものでしかないのですが、実際には選択可能な透明な文字情報がスキャン画像の上に乗っかっている状態の PDF ファイルと思ってもらえればよいかと思います。この選択可能な透明な文字情報は、文字列を選択し、コピー&ペーストが可能です。
‡ : 紙面に印字されたものをスキャンして PDF として保存したものに見えるのですが、PDF の上で原稿の周辺を選択すると、このように選択できます。この例では、上記の選択部分をコピーすると、If this がペーストできました
こういった理由で、この選択可能な文字情報は、 透明テキスト と呼ばれています。このような PDF ファイルは、英語では Searchable PDF(検索可能な PDF)と呼ばれることもあります。現在のように PDF が普及していなかった時期に書かれた学術論文などで、この透明テキスト付き PDF は多く作成されているようです。前述のとおり透明テキストを利用することで、その PDF 上に含まれる語句は検索可能です。学術論文のデータベースなどでは、キーワードを指定して検索できることが重要です。そのため、過去の論文などで検索可能な透明テキスト付き PDF は、重宝されているようです。
Qlingo では、このような透明テキスト付き PDF を翻訳する場合、透明テキストを原稿として翻訳するか、改めてスキャン画像から OCR して翻訳するかを選ぶことができるようになりました。透明テキスト付き PDF を翻訳しようとすると、以下のようなオプションが表示されます。
テキストの抽出 ボタンのすぐ上の テキストデータ優先 / テキストデータ優先(画像なし) / OCR 実行 のいずれかをクリックして、透明テキストを翻訳原稿として採用するか、OCR を改めておこなってその認識結果を採用するかを選べます。
透明テキストを採用した テキストデータ優先 / テキストデータ優先(画像なし) は、すでにデジタルデータとして文字列は保存されていますので、が容易に抽出可能です。そのため、比較的多めのページ数(20 ページ程度)でも処理可能です。一方、OCR 実行 は、処理に時間のかかる光学文字認識処理をおこないますので、ページ数が多い(10 ページ以上)とタイムアウトになる可能性が高まります。
初期設定で選択されている テキストデータ優先 と テキストデータ優先(画像なし) の違いは、大雑把に説明すると以下のとおりです。
- テキストデータ優先 : 原稿の文字や図版などスキャン画像の上に透明テキストを表示
- テキストデータ優先(画像なし) : 原稿の文字や図版などスキャン画像は含まずに、透明テキストだけを表示
文字だけで説明しても、イメージが湧かないかもしれませんので、原文と テキストデータ優先 / テキストデータ優先(画像なし) / OCR 実行 を指定して、作成したそれぞれ訳文のサンプルをご用意いたしました。原文は、右の画像のような紙に印字された文献をスキャン + OCR をおこなって、PDF として保存したものとお考えください。
fig. 1 : テキストデータ優先 | fig. 2 : テキストデータ優先(画像なし) | fig. 3 : OCR 実行 |
fig. 1 の テキストデータ優先 を指定して訳文ファイルをダウンロードした場合、訳文ファイルでは 原稿 PDF に含まれる文字や画像の上に抽出できた透明テキストを表示しますので、ごちゃごちゃして読みづらいかもしれませんが、どの部分がどのように翻訳されたのかの確認には便利かもしれません。
† : 訳文ファイル(Word 文書)上の文字列を選択し、文字色 / 背景色を設定すると読みやすくなります(cf. : 参考画像 01)。また、この訳文ファイルの背景画像を削除すると、訳文のみが閲覧可能になります(cf. : 参考画像 02)
一方、fig. 2 の テキストデータ優先(画像なし) の場合は、画像は含まれませんので読みやすくはなりますが、どの原文がどのように訳されたのかが把握しにくいかもしれません。また、画像は含まれません。
fig. 3 の OCR 実行 では、原稿の文字列は含まれませんし、画像も適切な位置に配置されます。これがいちばんよいように見えるのですが、前述したとおり翻訳の前に OCR 処理をおこないますので、翻訳完了までに時間がかかったり、ページ数が多すぎるとタイムアウトしてしまうこともありますので、一長一短でしょう。
† : 10 ページ以上のファイルの場合、タイムアウトする可能性が高くなります
PDF ツール > PDF → MS Office 変換 機能で、原稿が テキストデータ優先 / テキストデータ優先(画像なし) / OCR 実行 を指定して、どのような Microsoft Word 文書に変換されるのかを事前に確認可能です。PDF ツール > PDF → MS Office 変換 でダウンロードできた MS Word 文書を原稿として、翻訳をおこなうことも可能です。