✔️ 이런 분들에게 도움이 되는 글이에요!
- LLM의 추론 능력을 향상시키는 방법이 궁금하신 분
- LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분
- 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분
개요
산업 분류: IT
세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링
데이터 출처: 고객사 제공 데이터
작업량: Confidential
납품 형태: xlsx(Excel)
문제
단답형 질문 외에 유추가 필요한 질문, 복합적인 질문에도 대응할 수 있도록 LLM의 추론 능력을 향상 시키는 학습 데이터를 구축하는 것이 목표였습니다. 데이터의 내용이 될 특정 도메인 자료를 가공하여 원천 데이터로 만드는 과정을 시작으로, 사용자가 실제 사용할 법한 표현과 말투를 반영하여 자연스러운 대화데이터를 구축했습니다.
해결 방안
사전 구축 범위 설정
고객사 LLM의 기존 성능을 바탕으로 어떤 범위의 데이터를 어느 수준까지 다뤄야 하는지 사전에 확인한 뒤 데이터를 구축함으로써 리소스를 줄이고 작업을 효율화할 수 있었습니다. 특히 추론 과정에 있어 주관적인 기준에 의해 답이 달라질 수 있는 내용은 구축 범위에서 제외하여 정확도를 높이는 데 집중했습니다.최신 방법론 활용
LLM의 추론 성능을 높일 수 있는 다양한 방법론을 리서치, 연구하여 데이터 설계에 반영하였습니다. 프롬프트 엔지니어링 방법론 중 CoT(Chain-of-Thought) 기법을 활용함으로써 데이터에서 가장 자연스러운 단어 시퀀스를 찾아내는 LLM의 작동 원리에 맞게 문장을 구성하였습니다.데이터 유형화/체계화
고객사 제공 도메인 자료 전체를 분석하여 정보를 체계화한 후 구축할 데이터를 사전에 유형화하여 다양한 형태의 추론이 가능하도록 구성했습니다. 단일 유형의 추론은 물론 여러개의 Task가 섞인 복합 유형의 추론도 포함했습니다.맞춤형 구축 환경 설계
구축 단계에서부터 오류를 줄일 수 있도록 맞춤형 구축 환경을 마련했습니다. 작업자(크루)의 인지 부하량을 줄이는 방식으로 오류가 발생할 수 있는 지점을 사전에 제거하여 이후 검수 리소스까지 절약할 수 있었습니다. 이외에도 작업자가 손쉽게 도메인 정보를 찾을 수 있도록 검색기를 배치하는 등 효율화를 통해 데이터 퀄리티에 집중할 수 있도록 했습니다.
프로젝트 결과
자료를 바탕으로 정확한 답변을 구사하는 LLM 학습 데이터 구축
CoT(Chain-of-Thought)을 반영한 추론 데이터 설계안 마련
다양한 추론 Task 정의 및 패턴화
이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김수진, 김성연, 류소정, 박다혜
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.