MRC(기계 독해) 학습을 위한 지문 기반 QA 문장 구축 사례

MRC(기계 독해) 훈련 데이터를 활용한 Q&A 대화형 AI는 어떻게 설계해야 할까? 효과적인 QA 대화 모델을 구축하는 데이터 준비와 설계 사례을 알아보세요.
TEXTNET's avatar
Aug 17, 2023
MRC(기계 독해) 학습을 위한 지문 기반 QA 문장 구축 사례

개요

  • 산업 분류: IT/공학

  • 세부 Task: 멀티턴 대화 데이터 구축

  • 데이터 출처: 위키피디아

  • 작업량: Confidential

  • 납품 형태: xlsx(Excel)

  • 활용 서비스: Confidential

문제

페르소나를 가진 AI 어시스턴트와의 지식 정보 중심의 Q&A 데이터를 필요로 했습니다. 이 데이터는 다수의 도메인으로 양질의 데이터를 구축해 MRC 엔진의 학습 효과를 높인다는 목표가 있었습니다. 

이를 위해 위키피디아 내 서로 다른 페이지의 4개 지문을 바탕으로 복합 정보를 활용한 대화 데이터를 만들어야 하는 어려움이 있었습니다.

해결 방안

우선 여러 지문을 참고해야 하는 크루의 데이터 구축 과정이 효율적일 수 있도록 불필요한 과정을 없애고 데이터 구축 자체에 집중할 수 있게 작업 구조를 설계했습니다. 크루의 시선 흐름을 고려하여 설계한 작업구조를 고안, 적용하여 생산성을 높였습니다.

활용해야 하는 지문이 여러가지여서 어려운 작업이었지만, TEXTNET은 여러 지문을 활용하여 이어지는 두 번째 턴 대화에 담아 복합 정보를 제공했습니다. 다양한 도메인 정보를 지닌 데이터를 구축하기 위해 리서치를 통해 추가적인 정보를 찾아 구축에 활용했습니다. 

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
이지예, 이유


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.

Share article

텍스트넷 공식 블로그