Kanana-o
핵심 포인트
- 1Kanana-o는 2025년 5월 국내 최초로 개발된, 사람처럼 보고, 듣고, 이해하며 감정까지 표현하는 통합 멀티모달 언어모델입니다.
- 2이 모델은 텍스트, 이미지, 음성을 동시에 이해하여 한국적 맥락을 깊이 해석하고, 억양 및 감정을 반영한 자연스러운 한국어 발화를 제공하는 범용 AI입니다.
- 3현재 Kanana-o는 구체적인 활용 시나리오와 기술 역량을 갖춘 개발자를 대상으로 API를 제공하는 클로즈드 베타 테스트를 진행 중입니다.
본 문서는 2025년 5월 국내 최초로 개발된 통합 멀티모달 언어모델인 Kanana-o의 소개 및 베타 서비스 참여 안내에 대한 내용을 담고 있습니다.
Kanana-o는 사람처럼 보고(seeing), 듣고(hearing), 이해하며 풍부한 감정까지 표현할 수 있는 모델입니다. 주요 특징으로는 세 가지 핵심 역량을 제시합니다. 첫째, '가장 깊게 이해하는 AI'로서 텍스트, 이미지, 음성 등 두 가지 이상의 정보를 동시에 이해하고 처리하여 한국어 및 한국적 맥락 속 복잡한 의도와 상황까지 심층적으로 해석하는 능력을 갖췄습니다. 둘째, '가장 자연스럽게 말하는 AI'로, 억양, 속도, 감정, 화자 특성(speaker characteristics)을 고려해 정확한 발음과 깨끗한 음질로 사람처럼 자연스럽고 감성적인 표현이 가능한 발화(utterance)를 생성합니다. 셋째, '가장 다재다능한 AI'로서 특정 태스크(task)에 한정되지 않는 범용 멀티모달 모델(general-purpose multimodal model)로 설계되어 다양한 실생활 유스케이스(use cases)를 폭넓게 지원합니다. 구체적인 예시로는 팟캐스트 발화 지원, 멀티턴 대화 시나리오(multi-turn conversation scenarios), 다중 화자 대화(multi-speaker conversation)를 위한 TTS(Text-to-Speech) 기능 등이 언급됩니다.
Kanana-o 모델의 핵심 방법론은 '통합 멀티모달 언어모델(Integrated Multimodal Language Model)'이라는 명칭에서 유추할 수 있듯이, 텍스트(text), 음성(audio), 이미지(image)와 같은 이종(heterogeneous) 데이터를 통합적으로 학습하여 심층적인 이해 및 생성 능력을 구현한 것으로 보입니다. 이는 단순히 각 모달리티(modality)별 처리를 넘어, 모달리티 간의 상호작용(cross-modal interaction)과 맥락적 연결을 학습함으로써 '사람에 가까운 자연스러운 발화'와 '향상된 지시 이행 능력(instruction following ability)'을 달성하는 데 초점을 맞추고 있습니다. 이를 통해 단순한 벤치마크(benchmark) 성능을 넘어 실제 사용자 경험을 개선하는 실용적인 기술을 제공하고자 합니다.
현재 Kanana-o는 클로즈드 베타 테스트(Closed Beta Test) 형태로 API(Application Programming Interface)를 제한된 인원에게 공개하고 있습니다. 본 베타 서비스의 목적은 Kanana-o 신규 모델을 사용자에게 선공개하여 피드백을 수집하고 안정적인 서비스 제공을 위한 기반을 마련하는 것입니다. 참여 신청은 2026년 5월 27일까지 하단 버튼을 통해 대기 등록(waitlist registration) 방식으로 진행되며, 주차별 선별 안내는 카카오톡 채널 메시지로 개별 통보됩니다. 베타 테스터 선정 기준은 단순히 모델에 대한 호기심보다는 구체적인 활용 시나리오와 기술적 구현 역량(technical implementation capability)을 갖추고, 모델 활용을 통해 실질적인 가치를 창출하며 적극적인 피드백을 제공할 수 있는 개발자들을 우선하여 선발하여 초기 팬덤(fandom)을 구축하고자 합니다. 베타 서비스는 무료로 제공되지만, 베타 특성상 이용량에 제한이 있을 수 있으며 서비스 안정성이 변동될 수 있음을 고지하고 있습니다.