원문: https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash

제가 이해한 바에 따르면, 이제 Gemini 3 Flash가 이미지 이해를 Agentic한 프로세스로 진행하여서 비전 성능을 5~10%(벤치 기준) 끌어올린다고 하네요.

즉... 이미지 이해를 위해서 구글이 넣은 온갖 방법(코드쪽 방법 포함)을 쓴단 말이겠죠.

그간 LLM에게 난제였던 손가락 6개 이모지를 주고, "이거 사진 손가락 몇개게?" 라고 물어봤을 때 6개라고 답하는 걸 보니 꽤 쓸만한 것 같습니다. Gemini 앱에서 3 Flash (Thinking)와, Vertex AI에서 3 Flash를 쓰면 된다고 하네요. 두 경우 모두 '코드 실행' 옵션이 필요하고요. Vertex AI의 API로도 지원하나봐요.