안녕하세요, TEXTNET에서 금융 특화 QA 데이터 구축 프로젝트를 담당했던 PM 김예슬입니다. 지난 4개월간 저희 팀은 금융 도메인에 특화된 AI 모델을 학습시키기 위한 데이터 구축 프로젝트를 수행했습니다. 데이터 증강을 통해 단기간에 데이터의 품질이 보장된 도메인 특화 데이터를 구축한 과정에 대해 공유해 드리고자 합니다.
미션: ‘금융’ 도메인에 특화된 ‘고품질’ 학습 데이터
고객사는 ‘금융 특화 AI 서비스 구축’이라는 명확한 목표를 가지고 있었습니다. 고객사는 양질의 금융 데이터를 필요로 했고, 자세한 고객의 니즈는 아래와 같았습니다.
고객의 니즈
6만 건의 QA 데이터 구축
은행, 보험, 증권, 카드 등 다양한 금융 분야를 아우르는 데이터 구축
질의응답, 요약, 표 기반 정보 추출, 4지선다형 QA, 정답 문장 찾기 등 20가지 유형의 데이터셋 설계
재활용 가능한 형태로 데이터를 구축하여 향후 모델 변경 시에도 활용 가능하도록 준비
도전: 단기간 내 완성도 있는 데이터를 구축
이번 프로젝트의 핵심은 고품질의 금융 데이터를 한정된 시간 내에 구축하는 것이었습니다. 전통적인 방식으로 사람이 직접 데이터를 생성하면 품질은 보장되지만, 제한된 기한 내에 완료하기는 어려운 상황이었습니다. 반면, 자동화 도구만 활용하면 데이터량은 충족할 수 있어도 금융 전문성과 정확성을 확보하기에는 한계가 있었습니다.
저희는 LLM을 활용하여 초기 데이터를 생성하고 이를 전문 인력의 검수와 보완으로 품질을 확보할 수 있는 하이브리드 접근법을 통해 데이터를 증강하기로 하였습니다.
프롬프트 엔지니어링: 핵심은 지식 구조화
데이터 증강의 핵심은 '기준이 되는 데이터'를 설계하는 것입니다. 저희는 ‘원천 데이터 구조 분석 - 특화 데이터 구조 설계 - 컨텍스트 제어 - 검증’의 프로세스를 거쳐 완성도 있는 증강 데이터를 구축할 수 있었습니다.
데이터의 구조적 분석: 금융 도메인의 핵심 요소 파악
금융 데이터는 트랜잭션 유형, 금액, 시간대, 고객 프로필 등 복합적인 요소가 연결된 그래프 구조를 가집니다. 예를 들어, "대출 상환 알림" 텍스트 데이터를 증강할 때는 ‘거래 유형’ + ‘금액’ + ‘기한’ + ‘고객 ID’를 필수 속성으로 정의하고, 이들 간의 관계를 트리 구조로 매핑해야합니다. 저희는 이와 같은 과정을 통해 LLM이 문맥을 해체하지 않고도 자연스러운 변형을 생성할 수 있도록 했습니다.
도메인 특화 데이터 구조 설계: 세분화된 템플릿과 가이드라인
금융 데이터의 구조를 설계할 때, 계층적 속성 정의와 금융 규정 반영이 중요합니다. 예를 들어, 예산 관리 앱의 경우, ‘인건비'→'복리수행'→'식대’으로 3단계 계층을 설정해 LLM이 의미 체인을 유지하며 증강하도록 유도할 수 있습니다. 또한, "연체 알림”과 관련한 데이터 생성 시 ‘금융소비자 보호법’ 제12조를 참조해 법적 용어와 고지 사항을 템플릿에 삽입하여 증강 데이터의 법적 적합성을 보장했습니다.
프롬프트 엔지니어링: 컨텍스트 제어 전략
LLM을 효율적으로 활용하기 위해서는 few-shot 예제와 제약 조건을 명시적으로 기술하는 것이 필요합니다. 예를 들어, 3개의 정형화된 예시를 제공해 모델이 패턴을 학습하도록 설계했습니다.
[출력] 12월 이용 가능한 신용카드 한도액은 500만 원으로 설정되었습니다.
[입력] 고객님의 카드 한도가 ₩1,500,000으로 변경되었습니다.
[출력] 현재 이용 가능한 신용카드 한도는 150만 원으로 조정되었습니다.
[입력] 1월 카드 사용 가능 금액은 ₩2,000,000입니다.
[출력] 1월 신용카드 한도는 200만 원으로 설정되어 있습니다.
JSON 형식으로 금지 규칙을 명시함으로써 구조화된 컨텍스트를 제공했음에도 LLM이 이를 제대로 반영하지 못하는 사례가 발생했습니다. 그래서 자연어 기반 지침과 병행하는 방식으로 수정하였고, 개선된 결과물을 받아보았습니다.
검증 프로세스: 3*3단계 품질 검증 게이트
증강한 데이터의 금융 도메인 반영 여부와 완성도를 검증하기 위해서는 기존과 다른 검증 단계가 필요했습니다. 이에 ‘작업자 자가 검사’ → ‘교차 검사’ → ‘PM 검사’의 기존 검수 프로세스와 더불어 ‘구조 검증’ → ‘도메인 검증’ → ‘편향성 검증’을 추가하였습니다.
구조 검증: JSON 스키마 Validator로 필수 필드 누락 검출
도메인 검증: 도메인 지식 반영률 목표를 95% 이상으로 설정
편향성 검증: 카테고리형 데이터 분석을 위한 Chi-squared 검정
위와 같은 검증 절차를 거치며 초기 대비 20% 향상된 정확도의 증강 데이터를 확보할 수 있었으며, 특히 ‘퇴직연금 가입 및 운영’과 관련된 케이스에서는 오류 발생률을 2%까지 개선할 수 있었습니다.
마치며: 품질로 증명한 지식 구조화의 중요성
이번 프로젝트는 단순한 데이터의 양적 확장을 넘어, 체계적인 데이터 구조화와 프롬프트 최적화를 통해 목표한 수준의 고품질 데이터를 구축했다는 점에서 의미가 있습니다. 초기 단계에서는 프롬프트 엔지니어링에 집중하며 다양한 실험을 진행했으나 기대했던 수준의 결과물을 도출하기에는 어려움이 있었지만, 품질 개선을 위해 데이터 중심의 접근법으로 전환했고, 이를 통해 명확한 지식 구조화가 핵심적인 역할을 한다는 것을 확인할 수 있었습니다.
이번 프로젝트를 통해 도메인 지식을 구조화하고 AI가 학습해야 할 특징의 우선순위를 설정하는 것의 중요성과 데이터 증강에서 ‘기준이 되는 데이터’의 질적 차이가 결과에 미치는 영향에 대해 다시 한번 깨닫는 기회가 되었습니다.
✏️ Editor │ 챗봇사업팀 김예슬 PM
다양한 도메인 경험과 역량을 활용하여 효과적인 봇 전략을 제시하는 김예슬입니다.
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.