Qlingo ニューズレター > #006 : PDF の翻訳について §01

Qlingo では、プロジェクト作成 で画面に直接テキスト入力して、そのテキストを翻訳することもできますし、Microsoft Office などで作成したファイルも翻訳可能です。また、PDF のファイルも翻訳可能です。

翻訳されたプロジェクト数で見た場合、2021/06 に翻訳されたプロジェクトのうち、タイプ別に多いものから順に並べると……

  • 直接入力 : 35.79%
  • PDF : 30.62%
  • Microsoft Word : 23.10%
  • Microsoft Excel : 4.28%
  • Microsoft PowerPoint : 5.04%
  • テキストファイル : 1.17%

……となっておりますので、いかに PDF ファイルからの翻訳が多いかがおわかりいただけるでしょう。また、PDF は、文字数が直接入力よりも圧倒的に多いので、最も翻訳されているものと考えてもよさそうです。

PDF ファイルには、 MS Office などで作成したファイルを PDF で出力したもの と、 紙面に印字されたものをスキャンして PDF として保存したもの に大きく分けられます。

MS Office などのアプリケーションから出力した PDF の場合は、PDF を 400% ほどに拡大して表示しても文字は明瞭に表示されます。

Qlingo : Qlingo ニューズレター > #005 : PDF の翻訳について #01 : 画像 01

一方、スキャンデータから保存した PDF の場合は、PDF を拡大すると文字の輪郭がギザギザに表示されたり、不明瞭になったりします。

Qlingo : Qlingo ニューズレター > #005 : PDF の翻訳について #01 : 画像 02

この PDF ファイルの作成過程の違いによって、Qlingo で翻訳可能な PDF ファイルのページ数は大きく異なります

PDF ファイルから翻訳する場合、Qlingo サーバはまず最初に PDF ファイルを MS Word 文書に変換します。その際に、PDF からテキストを抽出するのですが、アプリケーションで作成した PDF の場合、デジタルデータとして PDF に保存されたテキストを抽出しますので、さほどの時間がかけずにテキストを抽出できます。しかし、スキャンデータから作成した PDF の場合、文字列のデータとしては保存されておらず、テキストの抽出には時間がかかってしまいます。画像から文字を認識して、読み取るという作業が必要となります。

このテキストの抽出にかかる時間を、簡単なイメージで説明するとすれば、

  • アプリケーションで作成した PDF : パソコンで入力したテキストを選択し、コピー&ペーストする → 簡単だし、間違いもない
  • スキャンデータから作成した PDF : 紙に印字された文字を書き起こす → 手間もかかるし、誤植の可能性がある

……とこんな感じでしょうか。この作業を同時に始めた場合、文字列を選択し、コピー&ペーストするのは一瞬で終わります。しかし、(分量にもよりますが)紙に印字された文字を書き起こすのは、時間と手間が必要です。

Qlingo では、どちらのタイプでも、PDF からのテキスト抽出作業に設定している時間は、同じ時間を設定しています。そのため、その時間内にテキストを抽出できるのは、

  • アプリケーションで作成した PDF : 20 ページ程度
  • スキャンデータから作成した PDF : 10 ページ程度

……となっています(2021/07 現在)。

ただし、どちらのタイプでも、PDF のレイアウト、文字の分量や大きさ(フォントサイズ)、文字の明瞭さによっても抽出にかかる時間は変わってきます。時間内に抽出しきれない場合は、タイムアウトとなり、そのままでは翻訳することはできません

このあたりは、明確にどちらのタイプであれば何ページまで可能……とお伝えすることができないのが残念ですが、PDF ツール > PDF → MS Office 変換 機能を利用して、事前に翻訳可能な分量の PDF であるかどうか(MS Word ファイルに変換できれば、そのまま翻訳可能)を調べてから、翻訳をおこなっていただけるとよいかもしれません。PDF のページ数が多すぎる場合は、 PDF ツール > PDF 分割 機能で、ファイルを分割することをお勧めいたします。

最初におこなう PDF から MS Word ファイルへの変換にかける時間は、以前(2021/03 まで)よりも 1.5 倍程度長めに設定変更しましたので、以前よりはタイムアウトが発生することも少なくなってきたように思われます。このあたりは、Qlingo のご利用状況や発生するエラーログなどを見ながら調整しております。

次回は、もうひとつ別のタイプの PDF の処理についてご案内いたします。