들어가며
최근 포도(PhoDo)라는 사진 평가 서비스를 사용해봤는데, AI가 내 사진에 점수를 매기고 자연어 피드백까지 준다는 개념이 꽤 흥미로웠습니다.
내부적으로 Google Gemini 2.5 Flash 모델을 사용하고, 이 모델이 "사진 평가"라는 태스크에 얼마나 적합한지, 그리고 서비스 설계 방식이 어떤 의미를 갖는지 같이 이야기해보고 싶어서 글을 올립니다.
서비스 설계 문서를 기반으로 기술적인 관점에서 몇 가지 포인트를 정리해봤습니다. 의견이나 반론, 추가 분석 모두 환영합니다!
1. 왜 Gemini 2.5 Flash인가?
포도는 gemini-2.5-flash 모델을 선택했습니다. GPT-4o나 Claude 같은 다른 멀티모달 모델과 비교했을 때 이 선택이 갖는 의미를 생각해보면:
| 비교 항목 | Gemini 2.5 Flash | GPT-4o (참고) |
|---|---|---|
| 응답 속도 | ⚡ 빠름 (Flash 계열) | 보통 |
| 멀티모달 | ✅ 네이티브 지원 | ✅ 지원 |
| JSON 출력 | ✅ 구조화 응답 안정적 | ✅ 지원 |
| 비용 | 상대적으로 저렴 | 상대적으로 고가 |
| Google 생태계 | ✅ 통합 용이 | ❌ |
"Flash" 계열은 속도와 비용 효율에 최적화된 모델입니다. 사진 평가라는 태스크 특성상 — 사용자가 업로드 직후 빠른 피드백을 원한다 — Flash 모델의 선택은 UX 측면에서 합리적인 결정으로 보입니다.
토론 포인트 1: Gemini 2.0 Flash 대비 2.5 Flash가 멀티모달 이해력에서 실질적으로 더 나은 결과를 보여줄까요? 사진의 미적 판단에서 차이가 체감되는 경험이 있으신가요?
2. Temperature 0.2 — "공정한 심사위원"을 만들려는 시도
서비스에서 눈에 띄는 설계 결정 중 하나는 temperature: 0.2입니다. 이는 LLM이 얼마나 "창의적(무작위적)"으로 응답할지를 조절하는 값으로, 0에 가까울수록 결정론적이고 일관된 출력이 나옵니다.
왜 이 값이 중요한가:
같은 사진을 두 번 평가했을 때 점수가 크게 달라진다면, 서비스의 신뢰도가 떨어집니다. 0.2는 재현 가능한 평가를 위한 선택입니다.
반면 트레이드오프도 있습니다. Temperature가 낮으면 AI 코멘트가 틀에 박힌 문장 패턴으로 반복될 가능성이 높고, 사용자가 "이 피드백이 모든 사람한테 비슷하게 나오는 거 아냐?"라는 인상을 받을 수 있습니다.
토론 포인트 2: 사진 평가 서비스에서 일관성(낮은 temperature)과 다양한 피드백(높은 temperature) 중 무엇이 더 중요할까요? 혹은 두 요소를 절충할 수 있는 다른 방법이 있을까요?
3. 점수 산출 알고리즘 — 가중 평균의 함의
포도의 최종 점수는 다음 공식으로 계산됩니다:
final_score=∑(scorei×weighti)∑weighti×20
각 항목은 0–5점이고, 100점 만점으로 환산됩니다. 운영자가 항목별 가중치를 직접 설정할 수 있어서, 예를 들어 "인물 사진 테스트"에서는 피사체 선명도에 가중치를 높게, 배경 처리에는 낮게 줄 수 있겠죠.
이 구조의 장점:
- 테스트 목적에 따라 평가 기준을 유연하게 설계 가능
- 운영자가 코드 변경 없이 Notion에서 조정 가능
잠재적 문제점:
- AI(Gemini)가 각 항목에 영수증처럼 정확한 0–5점을 매기는 것이 가능한가? → AI는 사실 연속적인 판단을 하는데, 이를 정수 점수로 강제하는 것이 정보 손실을 일으킬 수 있음
- 가중치 설계 자체가 운영자의 주관에 의존 → "올바른 가중치"는 누가 결정하는가?
토론 포인트 3:AI가 생성하는 점수(0–5 정수)를 그대로 믿을 수 있을까요? 같은 사진을 항목 설명만 바꿔서 평가하면 점수가 달라질까요? 프롬프트 민감도 실험을 해 본 분 계신가요?
4. 멀티모달 AI의 미적 판단 — 어디까지 믿을 수 있을까?
포도의 가장 본질적인 질문은 여기에 있습니다.
"AI가 사진의 미적 가치를 제대로 평가할 수 있는가?"
Gemini는 텍스트+이미지를 동시에 이해하지만, 그 판단은 결국 학습 데이터에 편향됩니다. 인터넷에 많이 존재하는 "좋은 사진"의 패턴(구도, 밝기, 색감)을 학습한 것이기 때문에:
- 📸 상업 사진, 인스타그램 스타일 → 높은 점수를 받기 유리할 수 있음
- 🎨 실험적·예술적 사진 → 모델이 "잡음"으로 판단해 낮은 점수를 줄 가능성
- 📷 문화권별 미적 기준 차이 → 서양 중심의 학습 데이터가 영향을 미칠 수 있음
물론 이를 완화하는 것이 바로 운영자 프롬프트 설계입니다. "예술적 실험성을 긍정적으로 평가하라"는 프롬프트를 통해 어느 정도 방향을 잡을 수 있겠지만, 한계는 분명히 존재합니다.
토론 포인트 4:여러분이 직접 서비스를 사용해봤다면, AI의 평가가 본인의 기대와 얼마나 일치했나요? 어떤 종류의 사진이 "과대평가" 혹은 "과소평가"된다고 느끼셨나요?
마치며 — 이 서비스가 던지는 더 큰 질문
포도(PhoDo)는 단순한 재미 앱처럼 보이지만, 그 안에는 꽤 흥미로운 기술적·철학적 질문들이 담겨 있습니다.
- AI의 심미적 판단을 얼마나 신뢰할 것인가?
- "객관적 점수"처럼 보이는 AI 평가가 실은 운영자의 주관을 반영한다면?
- 사진 교육 도구로서 AI 피드백의 한계는 어디까지인가?
💬 댓글로 의견 남겨주세요!
- 포도 서비스를 직접 사용해본 경험이 있으신가요?
- AI 사진 평가의 가장 큰 맹점이 무엇이라고 보시나요?
- 다른 멀티모달 모델(GPT-4o, Claude 3.5)로 유사한 시도를 해보셨나요?