PDFファイルをテキスト化する

このアプリでは、各国家試験の公式ホームページで公開されている「問題・解答」のPDFファイルをテキスト化し、アプリに取り込んでいます。


これまでは、購入したソフトウェア(Wondershare PDF)を使用したり、Google Drive にアップロードしてドキュメントに変換したりする方法でテキスト化していました。


しかし、これら2つの方法には大きな欠点がありました。それが誤変換の多さです。
変換後は、元のPDFと目視で見比べながら修正していましたが、問題数が多く、どうしても限界がありました。


最近は、AIを使ってテキスト化を行っています。
PDFのアップロードや高精度なテキスト変換には有料プランがほぼ必須なため、実際に試せたのは GeminiClaude Code のみですが、どちらも非常に正確にテキスト化してくれました。


ただし、AIであれば何でも自動的に完璧に変換されるわけではありません。
思い通りの出力を得るためには、指示(プロンプト)をできるだけ具体的かつ丁寧に書くことが重要です。
問題文や選択肢の区切り方、記号や数式の扱い方などを明示することで、変換精度は大きく向上しました。


その結果、公式ホームページに過去問がアップロードされた当日中にテキスト化し、正答の確認まで行えるようになりました。


純粋なOCR用途という意味では、Wondershare PDF などの専用ソフトは、もはや不要になったと感じています。ただし、PDFの編集や加工という点では、今後も使いどころはあると思います。


いくつかの過去問では、PDFにプロテクトがかかっているものや、紙媒体をスキャンしてPDF化したものも存在します。


著作物を保護したいという意図は理解できますが、テキスト化する立場からすると、
一度画像として書き出す工程が必要になり、なかなか手間のかかる作業になります。このようなケースでは、やはり Wondershare PDF が必須になります。


追記

大量のPDFをテキスト化する必要に迫られGemini3.0を契約したが変換精度がひどすぎました。次のような変換を行わせましたが何度やっても正確にできませんでした(誤 正 正 誤 の並びがメチャメチャ)。残念である。

例 1 誤 正 正 誤

  2 正 誤 誤 正

  3 誤 正 誤 誤

  4 正 誤 正 正

  5 誤 誤 正 誤


追記2

PDFを画像化して読み込ませるとまともにOCRできるようになりました。しかし、1回に読み込める量は画像10枚までであり使用した1つのPDFを3〜5回に分けて取り込む必要があり、この処理を32セットのPDFについて行うこととなりました。Claude Codeは間違いなくできましたが5セット程度読み込ませると本日終了(当日分のPro枠終了)となってしまいます。なかなかうまくは行きません。