Googleは、Gemini 2.5 FlashモデルにAI推論制御メカニズムを導入し、開発者が問題解決に費やされる処理能力を制限できるようにしました。この「シンキングバジェット(thinking budget)」機能は、4月17日にリリースされ、複雑でない質問に対してもAIモデルが過剰に分析し、不要な計算リソースを消費して運用コストや環境コストを押し上げる問題に対応するために登場しました。
革新的とは言えないものの、この取り組みは、商業用AIソフトウェアにおいて推論能力が標準機能となる中で浮上した効率性問題に対する実用的な一歩と見なされています。この新しいメカニズムにより、応答生成前に処理リソースを精密に調整でき、AI導入による財務的および環境的影響を管理する方法に変化をもたらす可能性があります。
Geminiのプロダクトマネジメントディレクター、トゥルシー・ドシ(Tulsee Doshi)氏は、「モデルは考えすぎます。単純なプロンプトに対しても、必要以上に思考します」と認めています。これは、高度な推論モデルが直面している課題、つまりクルミを割るために工業用機械を使うような非効率性を示しています。
推論能力へのシフトは、予期せぬ副作用を生み出しました。従来の大型言語モデルが主に学習データからパターンをマッチングしていたのに対し、最新モデルは問題を論理的に段階を追って解決しようとします。このアプローチは複雑なタスクには有効ですが、単純な問いに対しては大きな非効率を招きます。
コストとパフォーマンスのバランス
AI推論を無制御にすると、財政的影響は甚大です。Googleの技術文書によれば、完全推論が有効な場合、出力生成コストは標準処理に比べて約6倍に跳ね上がります。このコスト上昇が、精密制御への強力な動機付けとなっています。
Hugging Faceのエンジニアであり、推論モデルを研究しているネイサン・ハビブ(Nathan Habib)氏は、この問題が業界全体に蔓延していると述べました。彼はMITテクノロジーレビューに対し、「よりスマートなAIをアピールしようとするあまり、企業は釘がないところにもハンマーを使おうとしている」と語りました。
この無駄遣いは理論上のものにとどまりません。ハビブ氏は、有機化学の問題を解こうとしたある大手推論モデルが、「ちょっと待って、でも…」を何百回も繰り返し、事実上無限ループに陥って膨大な計算リソースを消費する様子を実演しました。
DeepMindでGeminiモデルを評価しているケイト・オルシェフスカ(Kate Olszewska)氏も、Googleのシステムが同様に、品質改善なしにコンピューティングパワーを浪費するループに陥るケースがあることを確認しました。