LLM 기반 구매의도 예측과 SSR 방법론 성능 비교 연구 (AI 소비자 조사)
LLMs를 활용한 구매 의도 예측 연구 노트
논문 정보
제목: LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings 저자: Benjamin F. Maier 외 (PyMC Labs & Colgate-Palmolive) 발행: 2025년 10월
https://arxiv.org/pdf/2510.08338
한 문장 요약 : LLM에게 숫자 대신 텍스트로 답하게 한 뒤 의미 유사도로 평가 척도를 만들면, 실제 소비자 설문조사를 90% 정확도로 재현할 수 있다.
실무적 의미 : 비싼 소비자 조사 대신 AI로 초기 제품 테스트 가능.
연구 배경
문제점
소비자 조사는 연간 수십억 달러의 비용이 소요되지만 패널 편향과 규모 제한 문제 존재
LLM을 합성 소비자로 사용하는 시도가 있었으나, 직접적인 수치 평가 요청 시 비현실적인 응답 분포 생성
기존 방법: 응답이 지나치게 좁고, 체계적으로 편향되어 있으며, 인간 데이터와 불일치
연구 목적
LLM이 합성 소비자로서 실제 소비자 조사 결과를 재현할 수 있는지 검증
핵심 방법론: SSR (Semantic Similarity Rating)
SSR의 작동 원리
1단계: 텍스트 응답 생성
LLM에게 인구통계학적 속성을 부여하고 제품 컨셉 제시
구매 의도에 대한 자유 형식 텍스트 응답 생성
2단계: 임베딩 변환
텍스트 응답을 임베딩 벡터로 변환 (text-embedding-3-small 모델 사용)
3단계: 유사도 계산
5개의 참조 문장(1-5점 척도에 각각 대응)과 코사인 유사도 계산
각 리커트 점수에 대한 확률 분포 생성
4단계: 확률 분포 생성
p(r) ∝ γ(σr, t) - γ(σℓ, t) + ε·δℓ,r여기서 γ는 코사인 유사도, σr은 참조 문장, t는 응답 텍스트
비교 방법들
DLR (Direct Likert Rating)
LLM이 직접 1-5 중 하나의 숫자로 응답
결과: 중간값(3)에 과도하게 집중, 극단값(1,5) 거의 없음
FLR (Follow-up Likert Rating)
텍스트 응답 생성 후, 동일 LLM이 "리커트 평가 전문가"로서 숫자로 변환
SSR보다는 낮지만 DLR보다 개선된 성능
실험 설정
데이터셋
설문 수: 57개 개인 위생 제품 컨셉 설문
참가자: 총 9,300명 (각 설문당 150-400명)
인구통계 정보: 나이, 성별, 지역, 소득 수준, 민족성
질문: "이 제품을 구매할 가능성은 얼마나 되나요?" (5점 리커트 척도)
사용 모델
GPT-4o
Gemini-2.0-flash (Gem-2f)
온도 설정: 0.5 및 1.5에서 테스트
평가 지표
1. 분포 유사도 (K^xy)
Kolmogorov-Smirnov (KS) 유사도 사용
KS sim = 1 - KS distance
척도의 순서성을 존중
2. 상관관계 달성률 (ρ)
ρ = E[R^xy] / E[R^xx]R^xy: 합성-실제 간 평균 구매 의도 상관관계
R^xx: 실제 데이터의 test-retest 신뢰도
인간 데이터의 노이즈를 고려한 상한선 대비 성과 측정
주요 결과
성능 비교 (GPT-4o, 이미지 자극, 전체 인구통계)
| 방법 | 상관관계 달성률 (ρ) | 분포 유사도 (K^xy) |
|---|---|---|
| DLR | 81.7% | 0.26 |
| FLR | 84.7% | 0.72 |
| SSR | 90.2% | 0.88 |
성능 비교 (Gem-2f, 이미지 자극, 전체 인구통계)
| 방법 | 상관관계 달성률 (ρ) | 분포 유사도 (K^xy) |
|---|---|---|
| DLR | 80.2% | 0.39 |
| FLR | 92.1% | 0.59 |
| SSR | 90.6% | 0.80 |
핵심 발견
1. SSR의 우수성
인간 test-retest 신뢰도의 90% 이상 달성
현실적인 응답 분포 유지 (KS 유사도 > 0.85)
극단값(1, 5)도 적절히 표현
2. 인구통계학적 패턴 재현
나이:
실제: 중년층이 가장 높은 구매 의도, 젊은층/노년층 낮음 (오목 패턴)
GPT-4o: 동일한 오목 패턴 재현
Gem-2f: 젊은층 낮음은 재현, 노년층 패턴은 차이
소득 수준:
예산 제약이 있는 소득 구간(1-4): 낮은 구매 의도
높은 소득 구간(5)/무응답: 높은 구매 의도
두 모델 모두 이 패턴 정확히 재현
제품 특성:
Category IV 제품: 일관되게 높은 평가
Category I 제품: 일관되게 낮은 평가
Source B 제품: 부정적 반응
가격 등급(Tier): 3-4등급 선호, 1등급 낮은 선호
합성 소비자가 모든 패턴 재현
3. 인구통계 정보의 중요성
인구통계 정보 제외 시 (Gem-2f):
분포 유사도: 0.91 (매우 높음)
상관관계 달성률: 50% (크게 감소)
평균 구매 의도: 4.0 ± 0.1 (실제 데이터와 동일)
해석: 인구통계 없이는 모든 제품을 긍정적으로 평가하지만, 제품 간 차별화 능력 상실
4. LightGBM과의 비교
전통적 ML 접근법 (LightGBM, 인구통계+제품 특성 학습):
상관관계 달성률: 65% (vs SSR 88%)
분포 유사도: 0.80 (vs SSR 0.88)
학습 데이터 필요, zero-shot LLM이 더 우수
SSR의 추가 장점
1. 정성적 피드백 제공
인간 응답: "좋다", "괜찮다" 등 단순한 설명
합성 소비자 응답 예시:
"사용 편의성과 안전성이 매력적이지만, 효과와 부작용에 대해 더 알고 싶다"
"내 예산에는 너무 고급스러워 보인다"
"마이크로바이옴 이야기는 잘 모르겠고, 내가 아는 제품을 고수하겠다"
2. 긍정성 편향 감소
실제 인간: 평균 4.0 ± 0.1 (좁은 범위)
합성 소비자: 더 넓은 범위의 평가
제품 차별화가 더 명확함
3. 다른 지표로 일반화 가능
"이 컨셉이 당신에게 얼마나 관련성이 있나요?" 질문에 대해:
상관관계 달성률: SSR 82%, FLR 91%
분포 유사도: SSR 0.81, FLR 0.62
제한사항 및 고려사항
1. 참조 문장 의존성
서로 다른 참조 문장 세트는 약간 다른 매핑 생성
본 연구: 6개 세트의 평균 사용으로 완화
향후 연구: 참조 문장 최적화 또는 동적 생성 가능
2. 인구통계 재현의 한계
잘 재현: 나이, 소득
재현 부족: 성별, 지역, 민족성
모든 하위 집단에 대한 대리 지표로 신뢰할 수 없음
3. 지식 영역 의존성
LLM 학습 데이터에 포함된 영역에서만 유효
개인 위생 제품: 온라인 포럼, 소비자 리뷰 등 풍부한 학습 데이터 존재
생소한 영역: 환각(hallucination) 위험
4. 구매 행동의 실제 복잡성
예산 제약, 문화적 맥락, 마케팅 노출 등은 완전히 포착 불가
결론 및 시사점
핵심 기여
방법론적 혁신: SSR은 텍스트 기반 응답을 확률 분포로 변환하여 리커트 척도의 모호성 포착
실용적 검증: 57개 실제 설문, 9,300명 데이터로 검증
Zero-shot 성능: 추가 학습 없이 90% 신뢰도 달성
실무 적용 가능성
비용 절감:
초기 컨셉 스크리닝을 합성 소비자로 수행
유망한 컨셉만 실제 패널 조사
중소기업도 소비자 인사이트 접근 가능
속도 향상:
제품 개발 주기 단축
빠른 반복 테스트 가능
깊이 있는 인사이트:
정량적 평가 + 정성적 설명 동시 제공
전통적 설문보다 풍부한 피드백
향후 연구 방향
참조 문장 최적화: 자동화된 최적화 또는 LLM 기반 동적 생성
다른 설문 유형으로 확장: 만족도, 신뢰도, 관련성 등
하이브리드 접근: SSR + 경량 파인튜닝
매개변수 조정: ε (최소 확률), T (온도) 최적화
다단계 파이프라인: 여러 LLM이 생성, 비평, 보정 역할 분담
최종 평가
SSR은 합성 소비자 조사를 위한 실용적이고 확장 가능한 프레임워크를 제공하며, 전통적인 설문 지표의 비교 가능성을 유지하면서도 풍부한 정성적 데이터를 제공합니다. 인간 조사를 완전히 대체하기보다는, 초기 단계 스크리닝과 인사이트 생성을 가속화하는 보완적 도구로 활용 가능합니다.