macでPDFファイルからテキスト抽出しようとしてみた

暑いんだかちょうどいいんだか微妙な昼下がり。
「こんなページ作ってね。文章はこれで」と文書で手渡されたのはいいけど……かなりの長文。
その昔チャットで鍛えた(つもりの)タイピングを今こそ生かせ!って感じなのだけれど、何せ今日は暑いんだかちょうどいいんだか微妙な空気。
春の風に身をまかせ、時間ないのに悪あがきしてみました。

そうだPDFスキャンしてテキスト抽出しよう!

探ってみたら、このような素晴らしいページが。
そちらの説明によると……

MacでAutomatorを起動する

そんなアプリケーションがあったんだ……!
どれどれ

PDFファイルからテキスト抽出1

アイコンがなんかかわいい。
……で

Automatorでアプリケーションを作成

PDFファイルからテキスト抽出2

『ライブラリ』から『PDF』を選択し、『PDFテキストを取り出す』を右側にドラックする。

PDFファイルからテキスト抽出3

アプリケーションとして保存し、テキストを抽出したいPDFファイルをアプリケーションにドラッグ。

やった!と思いながら、わくわくして作成されたtxtファイルを、私のかわいいmiちゃんで開いてみると。

PDFファイルからテキスト抽出4

こんなはずじゃなかった……。

で、調べてみたら、そもそも最初から間違っていたことが判明。
スキャンする時に、OCR(文字認識処理)しなきゃいけなかったんですね。
最近のスキャナは便利になったな〜、とおばさん臭いことを考えながらリトライ。

PDFファイルからテキスト抽出5

ホッ。

……としたのもつかの間。
ふと思い立って、普通にAcrobat Readerで開いてみたら

PDFファイルからテキスト抽出6

最近のスキャナは便利になったな〜(涙目)
フタを開けてみれば、あんまり脳みそを使ってなかったNの、骨折り損のくたびれもうけでした。

それでもすごく勉強になったので感謝。活用します。
というか、2010年の記事なので、単にNが間抜けだっただけです。
参考先:Macの標準機能で、PDF書籍をテキストファイルに変換する

【ハートブレーン】http://heart-kokoro.net/heartbrain/

メールでのお問合せ・お見積りはコチラ