OCRのためにローカルAIを導入しようとして失敗した話

私のM2 Macはメモリ64GBを搭載しています。

このリソースを活かし、ローカルAIで無料のOCR環境を構築しようと考えました。

Geminiから「即座に実装可能」との回答を得て構築に着手しましたが、現実は甘くありませんでした。

環境構築に手間取った挙句、ようやく動作しても実用レベルの精度には程遠い状態でした。

Claude Codeに確認しても「ローカルではそれが限界」との回答で、AIの「できる」という言葉の定義に改めて疑問を感じました。

しかし、その過程でAPI利用という選択肢を再認識しました。
現在、試験問題の解説作成にはGoogle AI Studioを活用しています。
普段は年間契約しているClaudeを使用していますが、問題公開が重なる繁忙期には、大量のデータを安価に処理できるGoogle AI Studioへ移行する方がコストパフォーマンスが高いと考えています。

それにしても、AIの「できます」という言葉には、いつもながら振り回されてしまいます。