AI利用における２つの課題

１．画像認識が不十分

画像がある場合は「https://lh3.googleusercontent.com/d/XXXXX」の形式でAIに渡していますが、この形式で画像を確認できるのは現状ではChatGPTのみです。Firebaseなどのサーバーに画像をアップロードして直接リンクを渡せば、他のAIでも画像を認識できるようですが……。対応すべきか、それともAIの進化を待つべきか、判断に迷っています。Perplexityは、強力な検索によって画像を探し出しているようです。

２．回答に数式を含む場合

AIの回答を単純にテキストとして保存しているため、マークダウンやLaTeX形式で数式が出力されると、保存されたテキストでは意味不明な内容になることがあります。プロンプトで「LaTeXを使わないように」と明確に指示しても、AIが完全には従わない場合も多く、安定した出力が得られないのが現状です。

１については一応 ChatGPT という解がありますが２については中々よい方法が見つかっていないのが現状です。

追記　2について

①ユーザーにスクリーンショットを撮ってもらい保存する。

②AIに数式部分を画像生成させる。

③事前に回答を用意しておく。

等、考えましたが

①は、1ページに全て入り切らない場合等の問題があります。

②は、AIがそもそも言うことを聞きません。いくら指示文に書いてもAIが最良と思う方法で回答します。また、画像生成には時間がかかります。

③回答内容の真偽をユーザーに判断してもらう必要があり、一概には推奨できない

最終的には、チャットのリンクをアプリ内に保存して必要な場合は再び閲覧してもらう方法しかないか？と思っています。チャットリンクの作成はログインが必要ですがChatGPTとGeminiでは可能なようです。