한국어 오픈소스 모델로 AI 다양성 발판
(서울=연합뉴스) 김현수 기자 = 국내 AI 업계가 한국어에 특화된 AI 모델을 잇달아 내놓으며 영어·중국어 등 특정 언어에 편중된 AI 생태계에 도전장을 내밀고 있다.
11일 정보통신기술(ICT) 업계에 따르면 국내 AI 전문 스타트업 모레(MOREH)는 자체 개발한 한국어 거대언어모델(LLM) '모티프'를 세계 최대 AI 플랫폼 '허깅페이스'에 오픈소스로 공개했다.
모티프는 웹사이트에서 수집된 글 외에도 국내 특허·연구 보고서 등 전문 분야 문서를 학습 데이터로 활용한 점이 강점이다. 지난 3일 기준, 모티프는 한국판 AI 성능 평가 지표인 'KMMLU'에서 64.74점을 받아 오픈AI·메타 등과 비교해 높은 성능을 보였다.
AI 전문 기업 디노티시아도 자체 개발한 LLM 파운데이션 모델 'DNA'를 허깅페이스에 오픈소스로 공개하고, 생성형 AI 어시스턴트의 베타 테스트를 시작한다고 밝혔다.
KMMLU 에서 인문학·사회학·과학 기술 등을 평가하는 한글·영어 벤치마크 전반에서 DNA는 평균 53.26점을 기록했다. 이는 LG '엑사원 3.5', 엔씨소프트[036570] '바르코' 등 경쟁 모델을 능가한 수치라고 디노티시아는 전했다.
이같은 한국어 특화 AI 모델 경쟁은 글로벌 빅테크 기업의 AI 모델이 가진 언어적 한계에서 비롯된다.
AI 모델은 본격적인 학습 이전에 기본적인 패턴을 학습하는 '프리-트레이닝'과 특정 분야에 AI를 최적화하는 '파인 튜닝' 과정을 거치는데, 이 과정에 사용되는 데이터가 대부분 영어·중국어 기반으로 알려졌다.
이로 인해 오픈소스 AI 모델을 사용하는 개발자 및 기업은 영어·중국어 중심의 모델에서 발생할 수 있는 번역 오류, 문화적 차이 등을 간과할 수 있다는 우려가 나온다.
모레 관계자는 "AI 시장 규모가 가장 크고 연구가 활발한 국가가 미국과 중국"이라며 "GPT-4에서는 '다케시마'로 검색하면 영유권 분쟁이 일어나고 있다는 식으로 설명하는 반면, 모티프에서는 '다케시마'가 일본식 표현이며 독도가 명백히 한국 땅이라고 설명한다"고 말했다.
AI 모델을 오픈소스로 공개해 전 세계 개발자들이 한국어 모델을 테스트할 경우, 장기적으로 한국어 특화 AI 생태계 조성에 일조할 수 있어 국내 업계에 유리하다는 시각도 존재한다.
이런 가운데 자연어 외에도 이미지를 인식하거나 법률·의료 등 전문 영역에 특화된 한국어 AI 모델도 속속 등장하며 한국어 특화 AI 모델 시장은 더욱 활성화될 것으로 전망된다.
엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 시각언어모델(VLM) '바르코 비전'을 공개했으며, 오픈AI는 지난 달 한국산업은행과 AI 생태계 발전을 위한 업무협약(MOU)을 통해 한국어 맥락에 맞춘 AI 모델 개발 방침을 밝혔다.
모레는 텍스트를 입력하면 이미지를 생성하는 '모티프 비전'을 이달 출시하고, 오픈소스로 공개할 계획이다.
한국인공지능법학회 회장을 역임한 최경진 가천대 법과대학 교수는 "한국적 맥락을 모르는 AI에게 그림 생성을 시킬 경우, 한국의 자치기 놀이를 하는 어린이인데 옷은 중국 복장으로 표현할 수 있다"며 "AI 수준의 핵심은 다양한 수준의 적응성으로, 많은 양과 다양한 지역의 데이터를 학습해야 더 정확하고 다양한 답변을 제공할 수 있다"고 말했다.
hyunsu@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>