국내 모빌리티사의 AI 챗봇 도입기: 학습 데이터 구축 비하인드 스토리

AI 챗봇이 자동차 구매 상담까지? 국내 모빌리티사의 실제 AI 챗봇 도입 과정을 생생하게 담았습니다. 데이터 전처리부터 RAG 시스템을 활용한 QA 데이터셋 구축, 다양한 고객 페르소나 반영, 실제 고객 언어까지 놓치지 않은 비하인드 스토리를 만나보세요.

TEXTNET

Apr 22, 2025

Contents

전통적인 방식을 탈피한 새로운 구매 경험을 만들다 고객의 니즈 활용성까지 고려한 데이터 전처리 데이터 분류체계 설계 과정 판매 전략을 고려한 QA 데이터셋 구축 QA 데이터 제작 QA 확장 결론

안녕하세요. 텍스트넷 데이터사업부 김명신 PM입니다. LLM의 발전에 따라 전통적인 대면 판매 방식의 시장도 점차 비대면으로 전환되고 있습니다. 저는 최근 모빌리티 분야에서 AI를 통해 새로운 구매 경험을 제공하기 위한 AI 상담 시스템 구축 프로젝트를 수행했습니다. 데이터 활용성을 고려한 데이터 전처리부터 RAG 시스템을 활용한 QA 데이터셋 구축 과정에 대해 소개해드리겠습니다.

전통적인 방식을 탈피한 새로운 구매 경험을 만들다

고객사는 국내 주요 모빌리티사로 AI 상담 시스템 도입을 통해 온라인으로 판매망을 확대하고자 했습니다. 전통적인 딜러망을 통한 구매에 익숙한 고객을 이탈 없이 온라인으로 전환하기 위해서는 차량 탐색, 시승을 포함한 구매의 전 과정을 AI 챗봇 상담으로 자연스럽게 진행할 수 있는 것이 중요했습니다. 이를 위한 고객사는 아래와 같은 니즈를 가지고 있었습니다.

고객의 니즈

차량 탐색부터 구매 결정에 이르는 고객 여정을 충실히 반영하는 데이터셋 설계
실제 고객 질문을 참고한 QA 데이터셋 구축
다양한 고객층에 대응할 수 있는 다중 페르소나 데이터셋 구축
RAG 기술을 활용한 정확성 확보

활용성까지 고려한 데이터 전처리

고객사의 제품이 이미 출시된 상황이라 공식 홈페이지 및 영업점에 구매 후기 및 피드백 데이터가 충분히 축적되어 있었습니다. 약 5,500여 개의 고객 질문 데이터에 포함된 소비자 구매 및 의사 결정 과정을 충분히 반영하기 위해서는 명확한 데이터 분류체계가 필요했습니다. 분류체계 확립 과정에서 중요하게 생각한 것은 고객사 내부 업무 프로세스를 고려하여 카테고리를 분류하는 것이었습니다. 조직 내 R&R에 따라 관리하는 데이터가 다르기 때문에 해당 프로젝트를 포함하여 다양한 부서 업무에서 활용할 수 있어야 했습니다.

데이터 분류체계 설계 과정

저희는 먼저, LangChain의 enumOutputParser를 활용한 자동 라벨링 시스템 구축했습니다. 또한, K-means clustering prediction을 진행하고 LLM을 활용한 다중 요약, LDA, 문장 단위 임베딩을 통해 전처리 데이터의 품질을 향상시킬 수 있었습니다. 특히, 데이터 분석 과정에서 카테고리의 경계가 모호한 질문과 복합 여정 질문에 대한 명확한 판단 기준을 확보한 것이 핵심이었습니다. 2개 이상 의도를 포함하는 질문에 대해 멀티라벨 분류 시스템을 구축하고 유사도 매트릭스를 활용한 동적 임계값 조정 시스템을 통해 일관성과 재현성을 확보할 수 있었습니다.

정규 표현식(Regex), 문자 변환, 공백 제거, 불용어 제거 등을 통한 데이터 정제
LangChain(enumOutputParser)을 활용한 자동 라벨링
K-means clustering을 통한 데이터 1차 클러스터링 및 군집화 분석
유사도 매트릭스를 활용한 클러스터 간 거리 분석(동적 임계값 조정)
LLM을 통한 2차 클러스터링 및 군집화 분석
분석 결과 및 데이터 활용성을 고려한 분류체계 정립

위의 과정을 통해 분류한 데이터는 RAG 시스템에서 효과적으로 활용될 수 있도록 JSON 형태로 구조화했습니다.

정확한 검색: 태그(tags)와 메타데이터(source)로 문서를 빠르게 필터링
의미 연결 강화: 구조화된 비교표(comparison_table)를 통해 LLM이 숫자 데이터를 정확히 해석
JSON으로 구조화된 데이터 예시

{
  "question": "[모델B] 기본 트림 vs 프리미엄 트림, 어떤 것을 선택해야 할까요?",
  "answer": "가족용 및 주말 근교 드라이브를 고려하시면 프리미엄 트림의 추가 안전 사양과 주행 거리가 도움이 될 수 있습니다. 시내 주행 위주라면 기본 트림으로도 충분합니다.",
  "comparison_table": "위 표 참조",
  "tags": ["전기차", "구매가이드", "트림추천", "가족용"],
  "source": "자동차 전문가 검증 및 공식 사양서 참조"
}

판매 전략을 고려한 QA 데이터셋 구축

QA 데이터셋 구축에 앞서, 고객의 판매 전략에 부합하는 페르소나를 설정하는 것이 주요 과제였습니다. 브랜드의 정체성과 제품의 특성을 고려하여 2가지 페르소나로 구성하여 데이터를 작성했습니다.

QA 데이터 제작

먼저, 고객의 인구특성을 분석하여 2가지 페르소나로 분할하여 사용자에 따라 이모지 사용 여부와 어투, 존칭 등 고객 친화적 Q&A 데이터 구축 환경을 설계했습니다. 또한, 자체 RAG 시스템을 구축하여 클렌징 및 전처리, 청킹, 임베딩&인덱싱에 이르기까지 제작 단계의 효율을 극대화할 수 있었습니다. 아래는 페르소나 분화 예시와 자체 RAG 시스템을 통해 진행한 업무 내용입니다.

페르소나 분화
- 페르소나1 예시) 20~40대 고객 : 이모지/줄임말 허용(”이 옵션 꿀템이에요👍”)
- 페르소나2 예시) 50대 이상 고객 : 존댓말/격식체 사용, 인터넷 용어 사용 금지(”충전 방법을 자세히 알려드리겠습니다.”)
자체 RAG 시스템 활용
- 클렌징&전처리
  - 노이즈 제거 : HTML 태그, 광고 문구, 중복 데이터 필터링을 통해 정확하고 관련도 높은 접근하도록 설계
  - 정규화 : 날짜(2024-07-20 → 2024년 7월), 단위(5,000km → 5000km) 등 통일하여 문서간의 불일치로 인한 검색 누락 방지
  - 마스킹 : 연락처, 계정 정보 등 개인 식별 정보 삭제하여 데이터 프라이버시 보호 및 법적 리스크 최소화
- 청킹
  - 답변의 기초가 되는 문서의 구조적, 의미적 단위를 기반으로 청킹하여 문맥 이해도를 높이며 정확도 확보
- 임베딩&인덱싱
  - Pinecone을 사용하여 벡터 기반 검색 인덱스 구축으로 의미적으로 유사한 문서까지 검색할 수 있도록 설계하여 정확도 향상
  - 질문 관련 정보가 실시간으로 정확하게 검색될 수 있도록 하여 빠른 응답 속도 확보

QA 확장

유사 질문 생성 시 LLM에 과도하게 의존하면 실제 유저의 질문과 달리 정형화된 질문만 생성할 가능성이 높기 때문에 문맥의 자연스러움, 표현의 다양성 확보를 위해 수작업으로 유사질문 작업을 진행하였습니다. 이를 위해 인터넷 또는 구어로 사용되는 고객 언어를 반영하여 유사 질문 생성과 비슷한 맥락을 구현할 수 있었으며, 구어체, 사투리, 약어 등 비표준 표현 등도 자연스럽게 반영할 수 있었습니다.

비표준어 예시) 핸들 열선 → 핸따
비슷한 맥락 예시) 열선 시트 → 엉따, 카마스터 → 카마, 페이스리프트 → 페리

또한, RAG를 통해 답변을 직접 검수하여 LLM에서 나타나는 할루시네이션 및 중복 답변을 수정하여 데이터의 정확성을 확보했습니다.

결론

이번 프로젝트는 실제 데이터 환경에서 발생하는 복잡한 문제들을 하나씩 해결해가며 완성도를 높여가는 과정이었습니다. 특히, 실제 서비스에 가까운 품질의 데이터를 만들기 위해 자사 RAG 시스템을 이번 프로젝트에 맞게 최적화하여 활용했고,, 그 과정에서 수집 데이터의 불규칙성, 질문 분류체계의 모호함, LLM 응답의 일관성 확보 등 다양한 현실적인 과제들을 마주하게 되었습니다.

하지만 명확한 분류체계 정립, 도메인 특화 언어 정리, 판매 전략 등을 고려하여 단순한 데이터셋 이상의 결과물을 만들어낼 수 있었습니다. 이번 경험은 QA 데이터를 정교하게 설계하고 구축하는 데 있어 매우 실질적인 기준점이 되었고, 향후 유사한 프로젝트에도 충분히 적용 가능한 인사이트가 될 것으로 생각됩니다.

텍스트넷은 앞으로도 고객사의 상황에 맞는 데이터 구축 전략을 제시하고, 실제 서비스에 도움이 되는 AI 학습 데이터를 만들어가는 데 집중해 나가겠습니다.

Contents

인사이트 블로그 커머스 데이터 B2C 고객 성공사례

국내 모빌리티사의 AI 챗봇 도입기: 학습 데이터 구축 비하인드 스토리

TEXTNET

Apr 22, 2025

Contents

전통적인 방식을 탈피한 새로운 구매 경험을 만들다

고객의 니즈

차량 탐색부터 구매 결정에 이르는 고객 여정을 충실히 반영하는 데이터셋 설계
실제 고객 질문을 참고한 QA 데이터셋 구축
다양한 고객층에 대응할 수 있는 다중 페르소나 데이터셋 구축
RAG 기술을 활용한 정확성 확보

활용성까지 고려한 데이터 전처리

데이터 분류체계 설계 과정

정규 표현식(Regex), 문자 변환, 공백 제거, 불용어 제거 등을 통한 데이터 정제
LangChain(enumOutputParser)을 활용한 자동 라벨링
K-means clustering을 통한 데이터 1차 클러스터링 및 군집화 분석
유사도 매트릭스를 활용한 클러스터 간 거리 분석(동적 임계값 조정)
LLM을 통한 2차 클러스터링 및 군집화 분석
분석 결과 및 데이터 활용성을 고려한 분류체계 정립

위의 과정을 통해 분류한 데이터는 RAG 시스템에서 효과적으로 활용될 수 있도록 JSON 형태로 구조화했습니다.

정확한 검색: 태그(tags)와 메타데이터(source)로 문서를 빠르게 필터링
의미 연결 강화: 구조화된 비교표(comparison_table)를 통해 LLM이 숫자 데이터를 정확히 해석
JSON으로 구조화된 데이터 예시

{
  "question": "[모델B] 기본 트림 vs 프리미엄 트림, 어떤 것을 선택해야 할까요?",
  "answer": "가족용 및 주말 근교 드라이브를 고려하시면 프리미엄 트림의 추가 안전 사양과 주행 거리가 도움이 될 수 있습니다. 시내 주행 위주라면 기본 트림으로도 충분합니다.",
  "comparison_table": "위 표 참조",
  "tags": ["전기차", "구매가이드", "트림추천", "가족용"],
  "source": "자동차 전문가 검증 및 공식 사양서 참조"
}

판매 전략을 고려한 QA 데이터셋 구축

QA 데이터 제작

페르소나 분화
- 페르소나1 예시) 20~40대 고객 : 이모지/줄임말 허용(”이 옵션 꿀템이에요👍”)
- 페르소나2 예시) 50대 이상 고객 : 존댓말/격식체 사용, 인터넷 용어 사용 금지(”충전 방법을 자세히 알려드리겠습니다.”)
자체 RAG 시스템 활용
- 클렌징&전처리
  - 노이즈 제거 : HTML 태그, 광고 문구, 중복 데이터 필터링을 통해 정확하고 관련도 높은 접근하도록 설계
  - 정규화 : 날짜(2024-07-20 → 2024년 7월), 단위(5,000km → 5000km) 등 통일하여 문서간의 불일치로 인한 검색 누락 방지
  - 마스킹 : 연락처, 계정 정보 등 개인 식별 정보 삭제하여 데이터 프라이버시 보호 및 법적 리스크 최소화
- 청킹
  - 답변의 기초가 되는 문서의 구조적, 의미적 단위를 기반으로 청킹하여 문맥 이해도를 높이며 정확도 확보
- 임베딩&인덱싱
  - Pinecone을 사용하여 벡터 기반 검색 인덱스 구축으로 의미적으로 유사한 문서까지 검색할 수 있도록 설계하여 정확도 향상
  - 질문 관련 정보가 실시간으로 정확하게 검색될 수 있도록 하여 빠른 응답 속도 확보

QA 확장

비표준어 예시) 핸들 열선 → 핸따
비슷한 맥락 예시) 열선 시트 → 엉따, 카마스터 → 카마, 페이스리프트 → 페리

또한, RAG를 통해 답변을 직접 검수하여 LLM에서 나타나는 할루시네이션 및 중복 답변을 수정하여 데이터의 정확성을 확보했습니다.

결론

Contents