Qlingo ニューズレター > #002 : PDF のテキストのみを抽出する機能が追加されました

Qlingo の PDF ファイルの翻訳機能は、PDF のレイアウト情報やスタイルなども(可能な限り)引き継いで、訳文に反映するように提供されています。そのため、原文ファイルと訳文ファイルで、レイアウトが共通しているので、直感的に原文ファイルと訳文ファイルを見比べることが容易です。
ただ、ページ数が多い場合などには、エラー(タイムアウト)になってしまうなどの限界がありました。

PDF ファイルを翻訳されたことのあるお客さまであれば、翻訳開始までに時間がかかったり、しばらく待ったけれどもエラーになってしまった……といったご経験をお持ちの方もいらっしゃると思います。ページ数の多い PDF だけでなく、パスワードが設定されている PDF や、印刷・編集ができないように設定された PDF ファイルも同じようにエラーになってしまうことがあります。

今回追加した テキストのみを抽出する機能 では、文字どおり、PDF 上のテキストデータだけを抽出できます。レイアウトやスタイルなどは、読み取らず、訳文ファイルにも反映しません。訳文は、PDF 上のテキストだけとなります(画像の読み取り対象外です)。

これまでの PDF ファイルの翻訳では、せいぜい 10 – 20 ページ程度の PDF ファイルしか読み取ることができませんでしたが、この テキストのみを抽出する機能 では 100 ページぐらいの PDF ファイルであっても非常に高速にテキストデータだけを抽出できます

レイアウトなどを重視しない契約書や論文などには適しているのではないかと思います。
(画像を多数含む PDF ファイルには適しているとは言えません)

プロジェクト作成の画面で、PDF ファイルを登録すると、 PDF からテキストのみを抽出 と書かれたテキストリンクが表示されます。こちらをクリックいただくと、テキスト抽出機能がご利用いただけます。

Microsoft Word などのアプリケーションで作成され、PDF ファイルとして保存されたファイルなどには、有効です。

紙に印字された文書をスキャナーでスキャンし、PDF 形式で保存しただけの PDF ファイルにはご利用いただけません。
: ただし、一部のスキャンデータから作成された PDF でもテキスト抽出機能が有効なファイルはあります

Qlingo マニュアル翻訳可能なファイルと翻訳不能なファイル に記述した

  • Microsoft Office やその他のアプリケーションで作成されたファイル を PDF 形式に出力(プリント)したファイル
    PDF ファイル上のテキストを選択することが可能(この状態でコピーすると、If this がコピー可能)
    Qlingo : Qlingo ニューズレター > #002 : PDF のテキストのみを抽出する機能が追加されました : 画像 01
  • 紙に印字されたものをスキャンした画像を PDF 形式で保存したファイルで、テキストが選択可能なファイル
    拡大するとフォントの輪郭がぼやけて表示されるが、テキストが選択可能なファイル(この状態でコピーすると、If this がコピー可能)。目に見えない文字データが、画像の上に記述されている状態なので、透明テキストと呼ぶこともあります
    Qlingo : Qlingo ニューズレター > #002 : PDF のテキストのみを抽出する機能が追加されました : 画像 02

……が、テキスト抽出機能が使える PDF ファイルになります。

簡単な見分け方としては、PDF ファイル上の文字データがマウスで選択できるファイル であれば、テキストのみの抽出が可能 だと考えればよいでしょう。

PDF のテキストのみを抽出する機能 の使い方 :

  1. プロジェクト作成 に PDF ファイルを登録する
  2. プロジェクト作成 に PDF ファイルを登録と以下のような画面が表示されるので、画面中央の PDFからテキストのみを抽出 のテキストリンクをクリックする
    Qlingo : Qlingo ニューズレター > #002 : PDF のテキストのみを抽出する機能が追加されました : プロジェクト作成に PDF を登録
  3. テキスト抽出が可能な PDF だった場合は、PDF からテキストのみが抽出され、抽出されたテキストが画面に表示される
    : テキストの抽出ができませんでした と表示された場合は、この機能で PDF 上のテキストを抽出できない PDF ファイルです。スキャン画像のみの PDF ファイルの可能性があります
    Qlingo : Qlingo ニューズレター > #002 : PDF のテキストのみを抽出する機能が追加されました : PDFからテキストのみを抽出をクリック
  4. テキストの抽出 をクリックして、翻訳を開始する
    : もし、抽出した画像に間違いがあるとき、不適切な箇所に改行がある場合などは、この時点で編集することも可能です

PDF ファイルから抽出されたテキストが、Qlingo で一度に翻訳可能な 20,000 ワード(英語原稿 : 20,000 単語 / 日本語原稿 : 40,000 文字)、または 36,000 ワード(英語原稿 : 36,000 単語 / 日本語原稿 : 72,000 文字)を超えている場合もありえます。そうした場合には、前回ご紹介した 下書き機能 をお使いいただき、一旦下書きとして保存してから、適切な分量に調整することも可能です。

ぜひ、一度お試しください。