모델 성능 향상을 위한 LLM 데이터 정제 및 학습 데이터 구축 사례

대규모 언어 모델(LLM)의 데이터 정제와 학습 데이터 구축 방법, 효과적인 데이터 품질 개선과 모델 성능 향상을 위한 노하우를 알아보세요.
TEXTNET's avatar
Sep 09, 2024
LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

✔️ 이런 분들에게 도움이 되는 글이에요!
- LLM에 맞는 데이터 구조화 방법이 궁금하신 분
- 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분
- 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분

개요

  • 산업 분류: 금융

  • 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축, LLM 학습 데이터셋 구축

  • 데이터 출처: 고객사 내부 문서

  • 작업량: Confidential

  • 납품 형태: xlsx(Excel)

  • 활용 서비스: 사내 챗봇

문제

금융기관의 LLM 도입을 위해 다양한 형태의 사내 문서를 텍스트로 추출, 정제하여 체계화한 후 이를 바탕으로 QA 데이터셋을 구축하는 프로젝트였습니다. 실제 직원들이 물어볼 만한 질문으로 자연스러운 데이터를 구축함과 동시에 도메인 특성상 전문 용어에 대한 정확한 이해와 활용이 중요했습니다.

해결 방안

  • 층위와 맥락을 고려한 데이터 구조화
    다양한 형태의 디지털 문서를 텍스트로 변환, 정돈되지 않은 상태의 데이터를 맥락을 고려하여 층위를 구분하는 등 구조화했습니다. LLM이 답변을 잘 찾아낼 수 있도록 구조가 복잡한 데이터의 표제와 내용을 분리하고 중복 또는 누락된 부분을 확인하여 보완했습니다.

  • 생산성 증대를 위한 작업 효율화
    작업 단계 간략화, 반복 작업의 자동화, 목적에 따른 필수 작업 정의, 데이터 통합 등을 통해 과정을 효율화하여 데이터 품질에 집중하면서도 일정 지연 없이 프로젝트를 마무리했습니다.

  • 구축 가이드라인 개선 방안 제안
    복수의 작업자가 동일한 수준의 데이터를 구축할 수 있도록 공통 항목, 필수 요소, 서술 정도, 톤 앤 매너, 답변 출처, 패러프레이징 정도 등의 항목을 미리 정의한 후 작업을 진행할 수 있도록 개선 방안을 제안했습니다.

프로젝트 결과

  • LLM의 답변 정확도를 높이는 데이터 구조화

  • 구축 작업의 효율을 높이는 과정 설계

  • 데이터 일관성을 높일 수 있는 방안 마련

고객사 평가

"데이터 구축 업무 뿐만 아니라 프로젝트 전반에 대해 도움을 받을 수 있었어요. 덕분에 일정 지연 없이 프로젝트를 종료할 수 있었고, 다른 학습 데이터 구축 인력과 차별화되어 있다는 인상을 받았습니다." - 담당자 최OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김수진, 류소정


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.

Share article

텍스트넷 공식 블로그