Qlingo で PDF ファイルの翻訳に役立つツールをご用意いたしました。このページでは、Microsoft Office などのソフトウェアで作成したファイルから PDF 形式で出力したファイルを Microsoft Office 形式に変換する機能(PDF → MS Office 変換)と複数ページで構成される PDF ファイルの分割機能(PDF 分割)の利用法について説明します。
関連記事 : 翻訳可能なファイルと翻訳不能なファイル
§01 : PDF ファイルについて
PDF は、大きく分けて 2 種類のタイプがあります。
- Microsoft Office やその他のアプリケーションで作成されたファイル を PDF 形式に出力 / 保存したファイル :
Microsoft Office などのアプリケーションで作成し、PDF ファイルとして出力されたデータ。
このタイプの PDF は、Qlingo で翻訳する(新規プロジェクトを作成する)ときに OCR(光学文字認識)処理の必要ないファイルです。 - 紙に印字されたものをスキャンした画像を PDF 形式で保存したファイル、またそのようなファイルで文字情報が選択可能なファイル :
スキャナーなどで文書をスキャンして、OCR(光学文字認識)処理をすることなく画像を PDF 形式で保存したデータや、カメラで撮影しただけの画像ファイルを PDF 形式で保存したデータ。また、文書をスキャンする際に PDF 上に目には見えない透明なテキストとして、画像上に保存したデータ。
このタイプの PDF は、Qlingo で翻訳するときに OCR(光学文字認識)処理の必要があるファイルです。
Microsoft Office やその他のアプリケーションで作成されたファイル を PDF 形式に出力 / 保存したファイル(構造化 PDF データ)は、Qlingo で翻訳可能です。以後、これらを構造化 PDF データと呼びます。
紙に印字されたものをスキャンした画像を PDF 形式で保存したファイル、またそのようなファイルで文字情報が選択可能なファイル(非構造化 PDF データ)は、Qlingo で翻訳する前にサーバで OCR 処理をおこなう必要があり、(その処理に時間はかかりますが)Qlingo で翻訳可能です(例外もあります)。以後、これらを非構造化 PDF データと呼びます。
† : ページ数が 10 ページを超えるようなファイルの場合には、OCR 処理が中断されることがあります。この場合は、翻訳処理がおこなわれません。PDF 分割 機能のご利用をご検討ください
構造化 PDF データと、非構造化 PDF データの違いは、以下の方法で見分けることができます。
構造化 PDF データの場合は、ファイルを開いたときにそのファイルをいくら拡大しても、テキストの輪郭は鮮明なままで表示されます。構造化 PDF データでは、PDF ファイル上のテキストを選択できます。ファイルを開き、Ctrl + A(MacOS の場合、⌘ + A)で、下図のようにハイライトされます。
‡ : 非構造化 PDF データの場合は、ファイル全体がハイライトされてしまいます
非構造化 PDF データの場合は、テキストの輪郭が鮮明に表示されず、ぼやけたり、ギザギザに表示されます。
Qlingo でも 非構造化 PDF データからの翻訳もできますが、前述のとおり、ページ数が 10 ページを超えるようなファイルなどの場合には、OCR 処理が中断されることがあり、翻訳処理がおこなわれないことがあります。複数のファイルに分割するなどして、お試しください。ファイルの分割については、§02-01 : PDF 分割の使い方 をご参照ください。
§02 : PDF 分割でできること
PDF 分割 では、複数ページで構成される PDF ファイルのページ分割が可能です。
Qlingo では、非構造化 PDF データを原稿にしてプロジェクト作成をおこなった場合、光学文字認識(OCR)処理をおこない、画像データからテキストを抽出します。その後で、翻訳が実行されます。そのページ数が 10 ページを超える場合、光学文字認識処理が異常終了するケースがあります。そうしたケースに遭遇したら、この PDF 分割 を利用して、PDF ファイルを分割してみてください。
また、構造化 PDF データであっても、20 ページを超えると Microsoft Word ファイルへの変換が中断されるケースもあります。この場合も、PDF 分割 で PDF ファイルを分割してみてください。
複数ページで構成される PDF のうち、その一部だけを Qlingo で翻訳したい……といったケースにもお使いいただけます。
§02-01 : PDF 分割の使い方
複数ページで構成される PDF ファイルをページ分割するまでの手順 :
- Qlingo の左メニューから、PDF ツール をクリックする
† : このような画面が表示されます - 画面上部の PDF 分割 のリンクをクリックすると、PDF 分割 のインターフェイスに切り替わる
- いずれかの方法で複数ページで構成される PDF ファイルを 1 ファイルだけ登録する
- PDF ファイルをPDF ファイルと書かれたフィールド(入力欄)にドラッグ・アンド・ドロップする
- PDF ファイルと書かれたフィールド(入力欄)に表示されている ファイルを選択 をクリックして、PDF ファイルを選択する
- 分割単位 / ページ範囲のいずれかを指定する
ファイルのアップロードが完了すると、以下のように表示されます。
分割単位 で 10 ページ、20 ページ毎など分割単位を指定するか、ページ範囲 で 取得したいページだけを指定して、ファイルを分割できます。- 分割単位の指定 :
2 ページ以上の PDF ファイルを登録すると、ページ数に応じて、1 / 2 / 3 / 4 / 5 / 10 / 20 / 30/ 40 / 50 / 100 / 120 / 140 / 160 / 180 / 200 ページの選択肢が表示されます(ページ数以上の選択肢は表示されません)。33 ページの PDF ファイルの場合 : 分割単位は、10 / 20 / 30 ページから選択可能
20 ページを指定 : pp. 1 – 56 のファイルの場合、pp. 1 – 20 / 21 – 40 / 41 – 56 の 3 ファイルに分割可能 - ページ範囲の指定 : ページ範囲を指定して、指定どおりのファイルに分割可能
以下のように記述すると、pp. 1 – 20 と pp. 21 – 40、 pp. 41 – 56の 3 ファイルに分割可能
e.g. :
4 → 4 ページめだけを取得
1-3 → 1 ページめから 3 ページめまでを取得
1-3,5-6 → 1・2・3 ページめと5・6 ページめを取得
- 分割単位の指定 :
- PDF を分割 をクリックする
上記の手順で、PDF 分割したファイルは、自動的に ZIP 形式で圧縮されて、ご自身の PC にダウンロードされます。
† : ボタンをクリックすると、即時に PDF 分割は実行されます(画面遷移などはありません)。ダウンロードフォルダをご確認ください
§02-02 : Windows ユーザの方向けの注意事項
Windows OS をお使いの場合で、PDF 分割 したファイルを翻訳しようとして、何回試してもエラーになってしまうケースが散見されます。PDF 分割でファイルを分割した後にダウンロードできる ZIP ファイルから翻訳される方に多く発生しているように見受けられます。以下のご注意事項をお読みいただき、翻訳いただけますようお願い申し上げます。
† : このアラートメッセージが表示された場合は、以下の要領に従って、原稿ファイルの投入のやり直しをお願いします
Windows OS で、(PDF 分割後にダウンロードされた)ZIP ファイル をクリックすると、以下のように展開(解凍)されたかのような状態で表示されます。
† : エクスプローラ上部に 展開 と表示され、その下に すべて展開 と書かれたアイコンが表示されている状態 = ZIP ファイルが未展開の状態
この状態でも、任意の PDF ファイルをプロジェクト作成画面にドラッグ&ドロップでき、プロジェクトの作成に移れてしまうのですが、この状態では ZIP ファイルはまだ展開されておらず、ZIP ファイルの中身だけが確認できている状態に過ぎません。そのため、この画面から任意のファイルをドラッグ&ドロップしても、翻訳はできません(中身のないファイルとして送信されます)。
ZIP ファイル中の任意の PDF ファイルを翻訳するには、エクスプローラ上部の すべて展開 と書かれたアイコンをクリックして、ZIP ファイルの展開を完了させてください。ZIP ファイルの展開が完了すると、先ほどまでエクスプローラ上に表示されていた 展開 と書かれたタブや すべて展開 と書かれたアイコンが表示されなくなります。
ここまで進めば、プロジェクト作成が可能になります。展開済みの PDF ファイルを投入して、翻訳してください。
‡ : ページ数が多すぎてタイムアウトになった可能性があります のメッセージが表示される場合は、さらに PDF 分割 でページ数を減らして、再度お試しください
§03 : PDF → MS Office 変換でできること
PDF → MS Office 変換 では、前述の構造化 PDF データ / 非構造化 PDF データを Microsoft Word (*.docx) / Excel (*.xlsx) / PowerPoint (*.pptx) 形式のファイルに変換でき、Qlingo で翻訳可能となります。
これまで Qlingo で翻訳できなかった構造化 PDF ファイルで、PDF → MS Office 変換 によりMicrosoft Word (*.docx) / Excel (*.xlsx) / PowerPoint (*.pptx) 形式に変換することで翻訳できるようになった PDF ファイルは、以下のとおりです。
- 構造化に問題がある PDF ファイル :
Microsoft Office などのソフトウェアから PDF に出力したファイルであっても、まれに発生するファイル構造に問題のあるもの。 - 証明書が不明な PDF ファイル :
証明書(電子署名)によって保護された PDF で、その証明書が不明なもの。
§03-01 : PDF → MS Office 変換の使い方
Qlingo で、PDF ファイルで新規プロジェクトを作成しようとした際に、アラートメッセージが表示され、翻訳がおこなわれないことがあります。こうした問題のすべてではありませんが、いくつかの問題を解決してくれるのが、PDF → MS Office 変換 機能です。
このセクションでは、PDF → MS Office 変換 機能の使い方について説明します。
構造化 PDF データ / 非構造化 PDF データから Microsoft Office ファイルに変換するまでの手順 :
- Qlingo の左メニューから、PDF ツール をクリックする
† : このような画面が表示されます(画面上部の PDF 分割 のリンクをクリックすると、PDF 分割 のインターフェイスに切り替わります) - いずれかの方法で PDF データの PDF ファイルを 1 ファイルだけ登録する
- PDF ファイルをPDF ファイルと書かれたフィールド(入力欄)にドラッグ・アンド・ドロップする
- PDF ファイルと書かれたフィールド(入力欄)に表示されている ファイルを選択 をクリックして、PDF ファイルを選択する
- 変換先ファイル でご希望のファイルタイプを Word (*.docx) / PowerPoint (*.pptx) / Excel (*.xlsx) から選択して、変換 をクリックしてください。
† : 文書を開くパスワードが必要な PDF ファイルの場合は、下図のインターフェイスで、パスワードを入力することができます
上記の手順で、PDF ファイルは、自動的に Microsoft Word ファイル (*.docx) に変換されて、ご自身の PC にダウンロードされます。
† : ボタンをクリックすると、即時に Microsoft Office ファイルへの変換がおこなわれます(画面遷移などはありません)。ダウンロードフォルダをご確認ください
ダウンロードされた Microsoft Word のファイルは、そのまま Qlingo の翻訳原稿として利用できます。また、Qlingo とうまく付き合うコツ をご参照いただき、PDF ファイルから Microsoft Word / Excel / PowerPoint 形式に変換された原文ファイルを編集して、Qlingo でよりよい翻訳ができるような原稿に書き換えることもできます。お試しください。
PDF → MS Office 変換 でタイムアウトのエラーが発生した場合は、PDF 分割 機能のご利用をご検討ください。
‡ : 構造化 PDF データの場合 20 ページ、非構造化 PDF データの場合 10 ページを超えるファイルの場合、タイムアウトになる可能性が高いようです