アウトライン化されたaiファイルから文字データを抜き出す方法

ホームページ制作の際、原稿として使ってくださいと会社案内などのパンフレットのデータをお渡しいただくことがあります。

お渡しいただくデータはPDFやaiが多いです。
また、aiファイルの場合、文字がアウトライン化されていることがほとんどなので、テキストをコピペできる状況にありません。原稿の文字起こし作業という手間がかかってしまいます。

簡易な内容であれば、手作業でザクザク入力しちゃうこともできるのですが（ミスなくサクサク入力するのは割と得意）、量が多いとちょっと困ることも。

そんな時は【Adobe Acrobat Pro DC】の登場です。
Adobe Acrobat Pro DCについているOCR機能を使ってテキストを抽出すると結構便利な時があるんです。

＊Adobe Acrobat DCは非対応みたいなのでご注意くださいませ。

アウトライン化されたaiデータのテキストを読み込む流れ

＊Adobe Acrobat Pro DC利用前提です。

テキスト抽出したいaiデータを開いて、抽出したい文字情報以外の画像などの不要なデータ類を削除して整理しておく。

元データちゃんととっておいてくださいね。

不要なデータを取り除いておくことで、読み込み時の時間短縮や、余計な文字抽出されないようにできます。

整理したaiデータを保存する際【PDF互換ファイルを作成】にチェックを入れて保存してください。

保存したaiデータを開いてメニューから【PDFを編集】をクリック

クリックした後は、自動的にOCR読み込みがはじまるので少し待ちましょう。

文字が多い場合は読取に時間がかかる場合もあります。

読み込みが終わってテキストをダブルクリックしてみると、コピペできる状態に変わっていることが分かります。

Adobe Acrobat Pro DCのOCR機能って日々進化しているので、昔に比べると格段に日本語読取能力もあがっています。

ただし、完璧ではありません。

文字が小さかったりするとおかしな漢字に変換されたり、長音記号がハイフンになってしまったりすることがあります。

また、抽出する文字の組み方によっては、単語が変な所で区切られた形でテキストボックスが生成されることもあります。

注意点はあるけど、長文データの場合は意外と役に立つことも多いです。

チラシやパンフレットのスキャンデータから文字を読み取ることもできるので、aiデータがなくてもなんとかなり助かっています。ただし、背景画像がガッツリあったりするとちゃんと読み込んでくれないこともあるので、このあたりはトライ＆エラーですかね～。

デハデハ！