대화까지 알아듣는 국산 AI 개발
상태바
대화까지 알아듣는 국산 AI 개발
  • 김형달 기자
  • 승인 2020.08.06 18:02
  • 댓글 0
이 기사를 공유합니다

ETRI, 엑소브레인 분석 API 공개
전이학습·데이터 증강기법 활용
학습데이터 부족 극복
ETRI 연구진들이 가상 엑소브레인 퀴즈대결 기술을 시연하는 모습. 사진=ETRI 제공
ETRI 연구진들이 가상 엑소브레인 퀴즈대결 기술을 시연하는 모습. 사진=ETRI 제공

국내 연구진이 글을 이해하는 인공지능(AI)을 넘어 사람의 말까지 이해할 수 있는 AI 서비스 개발을 선도할 구어체 언어분석 API(Application Programming Interface, 응용 프로그래밍 인터페이스)를 공개했다.

6일 한국전자통신연구원(ETRI)에 따르면 위키백과 및 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장하는 기술을 개발했다.

이어 사람의 대화 분석오류를 최대 41% 개선, 정확하게 이해할 수 있는 구어체 언어분석 기술을 공공 인공지능 오픈 API·데이터 서비스포털에 공개했다.  

ETRI가 개발한 ‘엑소브레인(Exobrain)’은 현재‘한컴오피스 2020’에 탑재되는 등 이미 상용화가 이뤄진 인공지능으로 언어분석 기술, 딥러닝 언어모델 기술, 질의응답 기술 등이 적용됐다.

언어분석 API는 2017년 10월 공개 이후, 일 평균 2만 6000건 등 총 2600만건에 이를 만큼 학계 및 언어처리 분야 연구자들에게 널리 사용되고 있다.

연구진은 기존 문어체 기술을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어분석 기술을 개발하는 데 성공, 관련 산업 생태계를 활성화하고 AI비서, 챗봇 등 AI 서비스 개발이 한층 가속화될 전망이다.

예를 들어 ‘패션검색’을 주제로 AI 서비스를 하기 위해선 기존에는 언어처리 기술 준비작업이 만만치 않았으나 ETRI 엑소브레인 API를 활용하면 서비스에 더 집중할 수 있게 된다.

ETRI가 공개한 구어체 언어분석 기술은 크게 형태소분석 기술과 개체명 인식 기술 두 가지이다.

ETRI가 공개한 기술은 TTA(한국정보통신기술협회) 표준 가이드라인을 따르며, 형태소 태그는 47개, 개체명 태그는 146개다.

형태소분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 필수적으로 활용된다.

또, 개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI스피커와 챗봇 등 다양한 언어처리 서비스에서 활용도가 높은 기술이다.

연구진은 구어체 언어분석의 어려운 점은 과업 자체의 난이도와 학습데이터 부족에 있다고 설명했다.

기계학습 및 딥러닝 기술이 대규모 학습데이터를 필요로 하는 데 반해 구어체 분야는 데이터 확보조차 어렵다는 문제가 있다.

실제 개체명 인식 학습데이터의 경우, 문어체는 약 27만 건이지만 구어체는 1/10 수준인 2만 5000 건 수준에 불과했다.

연구진은 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용해 학습데이터 부족 한계를 극복해냈다.

전이학습과 데이터 증강 기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술로 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습이 이뤄진다.

그 결과, 본 구어체 언어분석 API는 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선됐다. 또, 41.74%, 39.38%에 달하는 오류감소율을 나타냈다.

특히, 형태소분석은 메캡(Mecab) 오픈소스 라이브러리 산업계에서 사용되는 한국어 형태소분석 오픈소스 중 하나인 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.

ETRI 연구진은 구어체 언어분석 API와 더불어 기존 대비 성능을 개선한 문어체 언어분석 API도 추가로 공개했다.

추가로 공개된 API는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 높은 정확도를 보였다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.