“한국인 말·감정 이해하는 ‘한국형 AI’ 만든다”
상태바
“한국인 말·감정 이해하는 ‘한국형 AI’ 만든다”
  • 김성서
  • 승인 2019.06.14 13:52
  • 댓글 0
이 기사를 공유합니다

NIA, AI 학습용 데이터 250만개 개방
연말 데이터 2500만개 추가 공개
한국인의 말과 감정을 이해하는 '한국형 인공지능'을 만들기 위한 학습용 데이터 250만개가 개방됐다. 사진은 인공지능 학습용 데이터 구축·현황 및 계획. 한국정보화진흥원 제공
한국인의 말과 감정을 이해하는 '한국형 인공지능'을 만들기 위한 학습용 데이터 250만개가 개방됐다. 사진은 인공지능 학습용 데이터 구축·현황 및 계획. 한국정보화진흥원 제공

한국인의 말과 감정을 이해하는 ‘한국형 인공지능(AI)’를 만들기 위한 학습용 데이터 250만개가 개방됐다.

한국정보화진흥원(NIA)는 AI 학습용 데이터 250만개를 공개했다고 14일 밝혔다. 이번에 공개된 데이터는 △감정·상황·대회 내용을 담고 있는 복합 영상 △자연스러운 한국어 대화 음성 △한국어 챗봇용 대화 및 시나리오 △한국어 기계독해 데이터 등이다. 이 데이터들은 NIA가 운영하는 ‘AI허브’ 웹사이트에 접속하면 누구나 사용할 수 있다.

복합 영상 데이터와 한국어 기계독해 데이터는 사람의 표정과 대화 속에 내포된 감정을 읽고 대화의 전후 맥락을 짚어 정확한 답변을 제공하는 AI로봇 개발에 활용할 수 있다. 한국어 음성·대화 데이터는 AI 음식 인식기술 성능을 높이거나 챗봇에 활용된다.

AI의 경쟁력은 데이터 확보에서 나오지만 많은 비용과 시간이 필요한 만큼 대다수의 중소·벤처·스타트업기업은 데이터 확보에 어려움을 겪고 있다. NIA는 이번 데이터 공개가 AI 시장에 진입하려고 하는 신생기업들에게 도움이 될 것으로 보고 있다.

앞서 NIA는 2017년 법률, 특허, 일반상식, 한국형 이미지 등 4종의 데이터셋 구축을 시작으로 올해 1월 관광, 농업, 헬스케어 등 7종의 데이터셋을 개방한 바 있다. 올 연말에는 한·영 번역말뭉치, 한국형 사물이미지, 한글 글자체 이미지, 이상행동 영상 등 10종 2500만여건의 데이터셋을 대량으로 공개할 예정이다.

또 국가 연구개발(R&D) 과제인 ‘지능정보 플래그십 사업’을 통해 개발된 인공지능 학습용 데이터도 오는 7월 AI허브를 통해 공개한다. 지능정보 플래그십 사업은 음성, 언어, 영상 등 다양한 정보를 복합적으로 학습해 사람과 상호작용하는 대화형 에이전트 기술 및 서비스를 개발하는 R&D 사업이다.

문용식 NIA 원장은 “AI제품·서비스가 활발히 개발되고 출시될 수 있도록 수요에 맞는 데이터셋을 대량 구축·공개할 것”이라면서 “국내 AI산업 경쟁력을 강화하는 데 역량을 집중할 예정”이라고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사
    이슈포토