Forum

Gemini 2.5 Flash로 사...
 
알림
모두 지우기

Gemini 2.5 Flash로 사진을 평가한다는 것

2
1 사용자
0 Reactions
6 보기
글: 2
Admin
주제 스타터
(@admin)
회원
가입일: 2년 전

들어가며

최근 포도(PhoDo)라는 사진 평가 서비스를 사용해봤는데, AI가 내 사진에 점수를 매기고 자연어 피드백까지 준다는 개념이 꽤 흥미로웠습니다.

내부적으로 Google Gemini 2.5 Flash 모델을 사용하고, 이 모델이 "사진 평가"라는 태스크에 얼마나 적합한지, 그리고 서비스 설계 방식이 어떤 의미를 갖는지 같이 이야기해보고 싶어서 글을 올립니다.

서비스 설계 문서를 기반으로 기술적인 관점에서 몇 가지 포인트를 정리해봤습니다. 의견이나 반론, 추가 분석 모두 환영합니다!

 

1. 왜 Gemini 2.5 Flash인가?

 

포도는 gemini-2.5-flash 모델을 선택했습니다. GPT-4o나 Claude 같은 다른 멀티모달 모델과 비교했을 때 이 선택이 갖는 의미를 생각해보면:

비교 항목 Gemini 2.5 Flash GPT-4o (참고)
응답 속도 ⚡ 빠름 (Flash 계열) 보통
멀티모달 ✅ 네이티브 지원 ✅ 지원
JSON 출력 ✅ 구조화 응답 안정적 ✅ 지원
비용 상대적으로 저렴 상대적으로 고가
Google 생태계 ✅ 통합 용이

"Flash" 계열은 속도와 비용 효율에 최적화된 모델입니다. 사진 평가라는 태스크 특성상 — 사용자가 업로드 직후 빠른 피드백을 원한다 — Flash 모델의 선택은 UX 측면에서 합리적인 결정으로 보입니다.

토론 포인트 1: Gemini 2.0 Flash 대비 2.5 Flash가 멀티모달 이해력에서 실질적으로 더 나은 결과를 보여줄까요? 사진의 미적 판단에서 차이가 체감되는 경험이 있으신가요?

 

2. Temperature 0.2 — "공정한 심사위원"을 만들려는 시도

서비스에서 눈에 띄는 설계 결정 중 하나는 temperature: 0.2입니다. 이는 LLM이 얼마나 "창의적(무작위적)"으로 응답할지를 조절하는 값으로, 0에 가까울수록 결정론적이고 일관된 출력이 나옵니다.

왜 이 값이 중요한가:

같은 사진을 두 번 평가했을 때 점수가 크게 달라진다면, 서비스의 신뢰도가 떨어집니다. 0.2 재현 가능한 평가를 위한 선택입니다.

Temperature 0.0 → 완전히 결정론적 (같은 입력 = 거의 같은 출력)
Temperature 0.2 → 약간의 변동 허용 (자연스러운 문장 생성)
Temperature 1.0 → 창의적이지만 불안정

반면 트레이드오프도 있습니다. Temperature가 낮으면 AI 코멘트가 틀에 박힌 문장 패턴으로 반복될 가능성이 높고, 사용자가 "이 피드백이 모든 사람한테 비슷하게 나오는 거 아냐?"라는 인상을 받을 수 있습니다.

토론 포인트 2: 사진 평가 서비스에서 일관성(낮은 temperature)과 다양한 피드백(높은 temperature) 중 무엇이 더 중요할까요? 혹은 두 요소를 절충할 수 있는 다른 방법이 있을까요?


3. 점수 산출 알고리즘 — 가중 평균의 함의

포도의 최종 점수는 다음 공식으로 계산됩니다:

final_score=∑(scorei×weighti)∑weighti×20

각 항목은 0–5점이고, 100점 만점으로 환산됩니다. 운영자가 항목별 가중치를 직접 설정할 수 있어서, 예를 들어 "인물 사진 테스트"에서는 피사체 선명도에 가중치를 높게, 배경 처리에는 낮게 줄 수 있겠죠.

이 구조의 장점:

  • 테스트 목적에 따라 평가 기준을 유연하게 설계 가능
  • 운영자가 코드 변경 없이 Notion에서 조정 가능

잠재적 문제점:

  • AI(Gemini)가 각 항목에 영수증처럼 정확한 0–5점을 매기는 것이 가능한가? → AI는 사실 연속적인 판단을 하는데, 이를 정수 점수로 강제하는 것이 정보 손실을 일으킬 수 있음
  • 가중치 설계 자체가 운영자의 주관에 의존 → "올바른 가중치"는 누가 결정하는가?

토론 포인트 3:AI가 생성하는 점수(0–5 정수)를 그대로 믿을 수 있을까요? 같은 사진을 항목 설명만 바꿔서 평가하면 점수가 달라질까요? 프롬프트 민감도 실험을 해 본 분 계신가요?

4. 멀티모달 AI의 미적 판단 — 어디까지 믿을 수 있을까?

포도의 가장 본질적인 질문은 여기에 있습니다.

"AI가 사진의 미적 가치를 제대로 평가할 수 있는가?"

Gemini는 텍스트+이미지를 동시에 이해하지만, 그 판단은 결국 학습 데이터에 편향됩니다. 인터넷에 많이 존재하는 "좋은 사진"의 패턴(구도, 밝기, 색감)을 학습한 것이기 때문에:

  • 📸 상업 사진, 인스타그램 스타일 → 높은 점수를 받기 유리할 수 있음
  • 🎨 실험적·예술적 사진 → 모델이 "잡음"으로 판단해 낮은 점수를 줄 가능성
  • 📷 문화권별 미적 기준 차이 → 서양 중심의 학습 데이터가 영향을 미칠 수 있음

물론 이를 완화하는 것이 바로 운영자 프롬프트 설계입니다. "예술적 실험성을 긍정적으로 평가하라"는 프롬프트를 통해 어느 정도 방향을 잡을 수 있겠지만, 한계는 분명히 존재합니다.

토론 포인트 4:여러분이 직접 서비스를 사용해봤다면, AI의 평가가 본인의 기대와 얼마나 일치했나요? 어떤 종류의 사진이 "과대평가" 혹은 "과소평가"된다고 느끼셨나요?

 

마치며 — 이 서비스가 던지는 더 큰 질문

포도(PhoDo)는 단순한 재미 앱처럼 보이지만, 그 안에는 꽤 흥미로운 기술적·철학적 질문들이 담겨 있습니다.

  1. AI의 심미적 판단을 얼마나 신뢰할 것인가?
  2. "객관적 점수"처럼 보이는 AI 평가가 실은 운영자의 주관을 반영한다면?
  3. 사진 교육 도구로서 AI 피드백의 한계는 어디까지인가?

💬 댓글로 의견 남겨주세요!

  • 포도 서비스를 직접 사용해본 경험이 있으신가요?
  • AI 사진 평가의 가장 큰 맹점이 무엇이라고 보시나요?
  • 다른 멀티모달 모델(GPT-4o, Claude 3.5)로 유사한 시도를 해보셨나요?

1개 답글
글: 2
Admin
주제 스타터
(@admin)
회원
가입일: 2년 전
> 토론 포인트 4에 공감해서 댓글 남깁니다.

저도 포도 써봤는데, 확실히 "인스타 감성"으로 찍은 밝고 선명한 사진은 점수가 잘 나오더라고요. 근데 제가 좋아하는 스타일인 하이 콘트라스트 흑백 스트리트 포토는 구도나 빛이 괜찮아도 70점대 초반밖에 안 나왔어요. 아마 AI가 "노출이 부족하다", "색감이 단조롭다" 쪽으로 판단한 것 같았고요.

결국 AI가 대다수 사람들이 "좋은 사진"이라고 평가한 데이터로 학습된 거니까, 소수의 취향이나 예술적 실험은 불리할 수밖에 없는 구조 같습니다. 이걸 프롬프트로 보완할 수 있다고 하셨는데, 운영자가 "사진사의 의도와 실험성을 긍정적으로 평가하라"는 지침을 얼마나 정교하게 넣느냐에 따라 서비스 퀄리티가 천차만별일 것 같아요.

그래서 저는 이 서비스가 "좋은 사진 선생님"이라기보다는 "대중적 취향의 거울"에 가깝다고 생각해요. 그 자체로 유용하지만, 맹목적으로 점수를 따라가면 오히려 사진 스타일이 평준화될 수도 있다는 우려가 있습니다.

좋은 글 감사합니다 👍

답글 쓰기
공유:
위로 스크롤