어휘 경향성 조사에 기반한 어휘별 의미적 유사성을 가진 동의어(구) 리스트 구축 사례

텍스트 및 자연어 처리에서 어휘별 의미적 유사성을 가진 동의어 리스트를 구축하는 것은 매우 중요한 TASK입니다. 여기 효과적인 동의어 리스트 구축 사례를 알아보세요.
TEXTNET's avatar
Aug 17, 2023
어휘 경향성 조사에 기반한 어휘별 의미적 유사성을 가진 동의어(구) 리스트 구축 사례

개요

  • 산업 분류: 서비스

  • 세부 Task: 어휘 경향성 조사

  • 데이터 출처: 리서치를 바탕으로 한 신규 생성

  • 작업량: Confidential

  • 납품 형태: xlsx(Excel)

  • 활용 서비스: Confidential

문제

어휘별 의미적 유사성을 가진 동의어(구) 리스트 확보가 과제였습니다. 기본 어휘에 따른 동의어를 3개 이상 작성해야 했습니다. (Ex. 슬프다 - 눈물 난다 - 울고싶다 - 눈물 줄줄)

해결 방안

동의어는 우리말샘에 등재되지 않은 신조어, 은어, 줄임말 등 포괄적으로 사용 가능했기에 해당 부분에 주안점을 두었습니다. 사전적 의미가 100% 동일하지 않더라도 상황과 맥락으로 비추어 봤을 때 의미적으로 유사하게 통용되는 경우 동의어로 간주했습니다.

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
강민선, 현은진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.

Share article

텍스트넷 공식 블로그