3일, AI 개발자 플랫폼 허깅페이스 통해 공개 예정 발표
115억 파라미터 규모 '믿:음 2.0 Base', 23억 파라미터 규모 '믿:음 2.0 Mini' 등 2종
KT, 최초로 110억 파라미터 이상 한국어 범용 LLM 오픈소스 상업적 활용 공개
KT가 자체 개발한 한국적 AI LLM(언어모델) '믿:음 2.0'의 오픈소스를 AI 개발자 플랫폼 허깅페이스를 통해 공개할 예정이다.
KT는 3일, 한국적 독자 AI 모델 '믿:음 2.0' 오픈소스를 기업과 개인, 공공 누구나 상업적으로 활용할 수 있도록 개방하여 대한민국 AI 대중화에 앞장설 것이라고 밝혔다.
[사진 = '믿:음 2.0 테스트 모습, KT]
KT의 AI 철학을 담은 한국적 AI '믿:음 2.0' 모델은 115억 파라미터 규모의 '믿:음 2.0 Base', 23억 파라미터 규모의 '믿:음 2.0 Mini' 2종이며, 한국어와 영어를 지원한다.
믿:음 2.0 Base 모델은 한국 특화 지식과 문서 기반의 질의 응답에서 강력한 성능을 나타내는 범용 서비스에 적합하며, 믿:음 2.0 Mini 모델은 Base 모델에서 증류한 지식을 학습한 소형 모델이다.
KT는 110억 파라미터 이상의 한국어 범용 LLM을 상업적으로 활용할 수 있도록 오픈소스를 공개한 것은 KT가 최초의 사례로, 국내 AI 생태계 활성화에 긍정적인 역할을 할 것이라는 기대를 나타냈다.
KT는 '믿:음'의 사전 학습부터 고품질 한국어 데이터 준비과정에서 모든 저작권을 확보하여 신뢰성을 높였으며, 국내 교육용 도서와 문학작품 등 발간물, 법률 및 특허문서, 각종 사전 등 다양한 산업ㆍ공공ㆍ문화 영역에서 한국 특화 데이터를 확보해 '믿:음 2.0' 학습에 활용했다.
또한 한국어의 구조와 언어학적 특성을 반영한 토크나이저 자체 개발, 필터링으로 줄어든 데이터 규모의 데이터 합성 방법론 적용 보완 등을 통해 한국어 사용자에 최적화된 언어 이해 능력과 정밀한 표현력을 지닌 모델을 구현했다고 설명했다.
아울러 '믿:음 2.0' 모델은 AI의 윤리성 및 신뢰성을 위해 국내외 정책과 가이드라인을 기반으로 'AI 영향 평가 체계'를 적용해 보다 안전하고 투명한 기술 구현에 힘썼다고 강조했다.
KT는 '믿:음 2.0' 공개를 계기로 국내 AI 생태계에 '한국적 AI' 확산 선도에 나선다는 방침으로, MS와 협업을 통해 GPT-4에 한국적 사고를 추가 학습시키는 방식의 모델을 향후 공개할 예정이다.
KT는 "믿:음 2.0은 일반적인 생성 능력과 함께 한국 문화와 언어를 깊이 이해하도록 고도화된 AI 모델로, 한국적 AI 모델의 새로운 대안 제시 및 글로벌 경쟁력 확보 계기가 될 것"이라고 밝혔다.