PDFの中に書かれているテキストを、別の書類に使いたいという場合がある。Adobe Acrobat XIであれば、あらかじめテキストになっているデータはもちろん、画像の中に含まれているデータでも、テキスト認識機能を併用して抽出できてしまうのだ。
ビジネスの各シーンで利用するPDFファイル。このドリルを練習して、PDFを上手に活用できれば業務効率が向上し、コストの削減ができるはず! さらに、ビジネスのいろいろな問題も解決できるかもしれませんよ。
PDFの中に書かれているテキストを、別の書類に使いたいという場合がある。部分的に取り出すだけであれば範囲を選択して右クリック → コピーをすればよいが、選択範囲が複雑に入り組んでいたり、何ページにもわたるようなときは面倒だ。
こうした場合は、Adobe Acrobat XIでテキストを丸ごと書きだしてしまえばよい。対象のPDFを表示した状態で「ファイル」→「その他の形式で保存」→「その他のオプション」→「テキスト(プレーン)」を選択すると、PDF内にあるテキストデータが丸ごと書き出される。範囲選択がしにくい個所や、うっかり見落としがちな個所までまとめて書き出せるので、再利用も容易になるというわけだ。
もっとも、これだけなら実はAdobe Readerでも同じことができる。「その他の形式で保存」→「テキスト」を選択すればよいのだ。しかしAdobe Readerでは不可能な、Adobe Acrobat XIにしかできない技が「画像の中のテキストまで保存する」※。対象のPDFが、スキャンした画像データだった場合や、テキスト入りの図などが中に含まれる場合でも、テキスト認識機能を併用して、画像中のテキストデータを抜き出して保存することができるのだ。
具体的には、「表示」→「ツール」→「テキスト認識」を選択して、ツールパネルウィンドウに表示されるメニューから「このファイル内」をクリックし、対象のPDFの中にある文字をテキストデータに変換。その後、さきほどと同じ手順でテキスト書き出しの処理を実行すると、画像中に含まれていたテキストがファイルに書き出されるというわけだ。
Acrobat Readerはテキストとして保存するだけだが、Adobe Acrobat XIであればこのほか、Word形式などに書き出せる機能も持っている。今回はテキストを書き出す方法を紹介したが、最終的にWord文書として使用するのであればそちらの方法を使うのもお勧めだ。
Copyright © ITmedia, Inc. All Rights Reserved.