목록으로
naver-hyperclovax/HyperCLOVAX-SEED-Omni-8B · Hugging Face
Service2026.01.04

naver-hyperclovax/HyperCLOVAX-SEED-Omni-8B · Hugging Face

요약

HyperCLOVA X SEED 8B Omni는 텍스트, 비전, 스피치를 통합한 8B 파라미터의 Transformer 기반 Omni-model로, 일관된 멀티모달 이해 및 생성을 가능하게 합니다.
이 모델은 Text, Image, Video, Audio 입력을 처리하며 Text, Image, Audio 출력을 생성하고, 32K의 긴 Context Window를 지원하여 Vision-language QA, Text-to-Image 생성 및 음성 인식 등 다양한 상호작용을 수행합니다.
OmniServe를 통해 OpenAI-compatible API로 제공되며, 모델 구동을 위해 4x NVIDIA A100 80GB GPU를 포함한 총 약 48GB VRAM이 필요합니다.

상세 내용

HyperCLOVA X SEED 8B Omni는 텍스트, 비전, 스피치를 통합하는 auto-regressive Transformer 아키텍처 기반의 통일된 multimodal 모델입니다. 이 모델은 일관된 multimodal 이해 및 생성을 목표로 하며, 32K의 context window를 지원합니다.

핵심 방법론은 Transformer 기반의 "omni-model" 아키텍처에 있습니다. 이 Dense Model은 8B개의 파라미터를 가지며, textual, visual, audio representation을 공유된 semantic space 내에서 정렬합니다. 모델의 작동 방식은 크게 두 단계로 나눌 수 있습니다:

  • Input Encoding (입력 인코딩):
  • * 사용자의 요청은 텍스트, 이미지, 비디오, 오디오 등 다양한 모달리티로 들어올 수 있습니다.
    * 들어온 입력은 OmniServe 시스템을 통해 처리됩니다.
    * Vision Encoder: 이미지나 비디오 입력은 Vision Encoder를 통해 처리되어 multimodal embedding으로 변환됩니다. 이는 시각 정보를 모델이 이해할 수 있는 벡터 표현으로 압축하는 과정입니다.
    * Audio Encoder: 오디오(스피치) 입력은 Audio Encoder를 통해 처리되어 마찬가지로 multimodal embedding으로 변환됩니다. 이는 음성 정보를 텍스트와 시각 정보와 같은 차원으로 매핑하는 과정입니다.
    * 이렇게 인코딩된 embedding들은 Large Language Model (LLM)의 입력으로 주어지며, 텍스트 입력과 함께 LLM이 다중 모달리티 정보를 동시에 처리할 수 있도록 합니다.

  • Output Decoding (출력 디코딩):
  • * LLM (8B)은 인코딩된 입력과 텍스트를 기반으로 추론을 수행합니다.
    * LLM의 출력은 다양한 디코더를 통해 원하는 형태의 출력으로 변환됩니다.
    * Text Decoder: LLM의 출력 중 텍스트 관련 부분은 Text Decoder를 통해 최종 텍스트 응답으로 생성됩니다.
    * Vision Decoder: 이미지 생성 또는 편집과 같은 작업의 경우, LLM이 생성한 discrete image token (예: <discreteimagestart>...<discreteimageend><|discrete_image_start|>...<|discrete_image_end|>)을 Vision Decoder가 입력받아 실제 RGB 이미지로 변환합니다. 이 이미지는 S3-compatible storage에 저장된 후 URL 형태로 반환됩니다.
    * Audio Decoder: 텍스트를 음성으로 변환하거나 오디오-오디오 변환과 같은 작업의 경우, Audio Decoder가 LLM의 출력을 기반으로 음성 데이터를 생성합니다. 이 음성 데이터 또한 S3에 저장된 후 URL 형태로 반환됩니다.

    이러한 통합 아키텍처를 통해 HyperCLOVA X SEED 8B Omni는 vision-language QA, text-to-image 생성 및 편집, speech recognition 및 translation, text-to-speech 등 다양한 bidirectional multimodal interaction을 지원합니다. 모델은 MMLU-Pro, KMMLU-Pro, SEED-IMG, Librispeech 등 다양한 벤치마크에서 성능을 입증하였습니다. Inference는 OmniServe를 통해 제공되며, 4x NVIDIA A100 80GB GPU가 권장 하드웨어 사양으로, Vision Encoder, LLM, Vision Decoder가 각각 GPU VRAM을 할당받고, Audio Encoder와 Audio Decoder는 VRAM을 공유하여 총 3대의 GPU를 필요로 합니다.

    원본 보기
    Hugging Face
    Shared by Anonymous