Blog

Google, Gemini 2.5 Flash에 AI 추론 제어 기능 도입
April 29, 2025

Google은 Gemini 2.5 Flash 모델에 AI 추론 제어 메커니즘을 도입하여, 개발자가 문제 해결에 소모되는 처리 능력을 제한할 수 있도록 했습니다. 이른바 “생각 예산(thinking budget)” 기능은 4월 17일에 출시되었으며, 복잡하지 않은 질문에 대해서도 AI 모델이 과도하게 분석하여 불필요한 계산 자원을 소비하고 운영비용 및 환경 비용을 증가시키는 문제를 해결하고자 마련되었습니다.

이 기능은 혁명적이진 않지만, 상업용 AI 소프트웨어에서 추론 능력이 표준화되면서 대두된 효율성 문제를 실질적으로 해결하려는 중요한 조치입니다. 이 새로운 메커니즘을 통해 응답 생성 전에 처리 자원을 정밀하게 조율할 수 있어, AI 도입에 따른 재정적 및 환경적 영향을 관리하는 방식에 변화를 가져올 수 있습니다.

Gemini 제품 관리 디렉터인 툴시 도시(Tulsee Doshi)는 “모델이 과도하게 생각합니다. 간단한 프롬프트에 대해서도 모델이 필요 이상으로 사고합니다.”라고 인정했습니다. 이는 고급 추론 모델이 직면한 문제를 보여줍니다. 간단히 말해, 호두 하나를 깨기 위해 산업용 기계를 사용하는 것과 같은 상황입니다.

추론 기능 강화를 향한 전환은 의도치 않은 결과를 낳았습니다. 기존의 대형 언어 모델이 주로 학습 데이터에서 패턴을 매칭하는 데 집중했던 것과 달리, 새로운 모델들은 문제를 단계별로 논리적으로 해결하려고 시도합니다. 이 접근 방식은 복잡한 작업에는 좋은 결과를 가져오지만, 단순한 질문 처리에서는 심각한 비효율을 초래합니다.

비용과 성능의 균형

AI 추론을 통제하지 않을 경우 발생하는 재정적 영향은 상당합니다. Google의 기술 문서에 따르면, 전체 추론이 활성화되면 출력 생성 비용이 표준 처리 대비 약 6배 더 비싸집니다. 이 비용 상승은 정밀 제어에 대한 강력한 동기를 제공합니다.

허깅페이스(Hugging Face)의 엔지니어인 네이선 하빕(Nathan Habib)은 이러한 문제가 업계 전반에 퍼져 있다고 설명했습니다. 그는 MIT 테크놀로지 리뷰에 “더 똑똑한 AI를 선보이려는 경쟁 속에서, 기업들은 망치가 필요한 곳이 아닌데도 reasoning 모델을 무리하게 사용하는 경향이 있습니다.”라고 밝혔습니다.

이러한 낭비는 단순한 이론에 그치지 않습니다. 하빕은 유기 화학 문제를 해결하려고 시도한 한 주요 reasoning 모델이 “잠깐만, 그런데…”를 수백 번 반복하는 무한 루프에 빠지는 현상을 시연했으며, 이로 인해 막대한 처리 자원이 낭비되었습니다.

DeepMind에서 Gemini 모델을 평가하는 케이트 올셰브스카(Kate Olszewska) 역시, Google 시스템이 때때로 이와 유사한 문제를 겪으며 품질 향상 없이 컴퓨팅 자원을 소모하는 루프에 빠지는 사례를 확인했습니다.

View All Latest