Gemini 2.5 Flash로 사진을 평가한다는 것

admin — Tue, 20 Jan 2026 15:35:50 +0000

들어가며

최근 포도(PhoDo)라는 사진 평가 서비스를 사용해봤는데, AI가 내 사진에 점수를 매기고 자연어 피드백까지 준다는 개념이 꽤 흥미로웠습니다.

내부적으로 Google Gemini 2.5 Flash 모델을 사용하고, 이 모델이 "사진 평가"라는 태스크에 얼마나 적합한지, 그리고 서비스 설계 방식이 어떤 의미를 갖는지 같이 이야기해보고 싶어서 글을 올립니다.

서비스 설계 문서를 기반으로 기술적인 관점에서 몇 가지 포인트를 정리해봤습니다. 의견이나 반론, 추가 분석 모두 환영합니다!

포도는 gemini-2.5-flash 모델을 선택했습니다. GPT-4o나 Claude 같은 다른 멀티모달 모델과 비교했을 때 이 선택이 갖는 의미를 생각해보면:

"Flash" 계열은 속도와 비용 효율에 최적화된 모델입니다. 사진 평가라는 태스크 특성상 — 사용자가 업로드 직후 빠른 피드백을 원한다 — Flash 모델의 선택은 UX 측면에서 합리적인 결정으로 보입니다.

토론 포인트 1: Gemini 2.0 Flash 대비 2.5 Flash가 멀티모달 이해력에서 실질적으로 더 나은 결과를 보여줄까요? 사진의 미적 판단에서 차이가 체감되는 경험이 있으신가요?

서비스에서 눈에 띄는 설계 결정 중 하나는 temperature: 0.2입니다. 이는 LLM이 얼마나 "창의적(무작위적)"으로 응답할지를 조절하는 값으로, 0에 가까울수록 결정론적이고 일관된 출력이 나옵니다.

왜 이 값이 중요한가:

같은 사진을 두 번 평가했을 때 점수가 크게 달라진다면, 서비스의 신뢰도가 떨어집니다. 0.2는 재현 가능한 평가를 위한 선택입니다.

Temperature 0.0 → 완전히 결정론적 (같은 입력 = 거의 같은 출력)

Temperature 0.2 → 약간의 변동 허용 (자연스러운 문장 생성)

Temperature 1.0 → 창의적이지만 불안정

반면 트레이드오프도 있습니다. Temperature가 낮으면 AI 코멘트가 틀에 박힌 문장 패턴으로 반복될 가능성이 높고, 사용자가 "이 피드백이 모든 사람한테 비슷하게 나오는 거 아냐?"라는 인상을 받을 수 있습니다.

토론 포인트 2: 사진 평가 서비스에서 일관성(낮은 temperature)과 다양한 피드백(높은 temperature) 중 무엇이 더 중요할까요? 혹은 두 요소를 절충할 수 있는 다른 방법이 있을까요?

포도의 최종 점수는 다음 공식으로 계산됩니다:

final_score=∑(scorei×weighti)∑weighti×20

각 항목은 0–5점이고, 100점 만점으로 환산됩니다. 운영자가 항목별 가중치를 직접 설정할 수 있어서, 예를 들어 "인물 사진 테스트"에서는 피사체 선명도에 가중치를 높게, 배경 처리에는 낮게 줄 수 있겠죠.

이 구조의 장점:

잠재적 문제점:

AI(Gemini)가 각 항목에 영수증처럼 정확한 0–5점을 매기는 것이 가능한가? → AI는 사실 연속적인 판단을 하는데, 이를 정수 점수로 강제하는 것이 정보 손실을 일으킬 수 있음
가중치 설계 자체가 운영자의 주관에 의존 → "올바른 가중치"는 누가 결정하는가?

토론 포인트 3:AI가 생성하는 점수(0–5 정수)를 그대로 믿을 수 있을까요? 같은 사진을 항목 설명만 바꿔서 평가하면 점수가 달라질까요? 프롬프트 민감도 실험을 해 본 분 계신가요?

포도의 가장 본질적인 질문은 여기에 있습니다.

"AI가 사진의 미적 가치를 제대로 평가할 수 있는가?"

Gemini는 텍스트+이미지를 동시에 이해하지만, 그 판단은 결국 학습 데이터에 편향됩니다. 인터넷에 많이 존재하는 "좋은 사진"의 패턴(구도, 밝기, 색감)을 학습한 것이기 때문에:

물론 이를 완화하는 것이 바로 운영자 프롬프트 설계입니다. "예술적 실험성을 긍정적으로 평가하라"는 프롬프트를 통해 어느 정도 방향을 잡을 수 있겠지만, 한계는 분명히 존재합니다.

토론 포인트 4:여러분이 직접 서비스를 사용해봤다면, AI의 평가가 본인의 기대와 얼마나 일치했나요? 어떤 종류의 사진이 "과대평가" 혹은 "과소평가"된다고 느끼셨나요?

포도(PhoDo)는 단순한 재미 앱처럼 보이지만, 그 안에는 꽤 흥미로운 기술적·철학적 질문들이 담겨 있습니다.

💬 댓글로 의견 남겨주세요!