GLM-4.7-Flash 모델 공개 | GeekNews
News

GLM-4.7-Flash 모델 공개 | GeekNews

xguru
2026.01.23
·News·by 배레온/부산/개발자
#LLM#AI#Open Source#Model#Flash

핵심 포인트

  • 1GLM-4.7-Flash는 30B-A3B MoE 구조를 가진 대형 언어 모델로, 30B급 모델 중 최고 성능과 효율성의 균형을 목표로 하는 경량 배포용 모델입니다.
  • 2AIME 25, GPQA, SWE-bench 등 다양한 벤치마크 테스트에서 동급 모델 대비 경쟁력 있는 높은 점수를 기록하며 성능을 입증했습니다.
  • 3vLLM, SGLang 추론 프레임워크와 GGUF 양자화를 지원하여 로컬 환경에서 효율적으로 배포 및 활용 가능하며, 저렴한 LLM-as-a-service 대안을 제공합니다.

GLM-4.7-Flash는 30B-A3B MoE(Mixture-of-Experts) 구조를 가진 대규모 언어 모델로, 성능과 효율성의 균형을 목표로 하는 경량 배포용 모델입니다. 이 모델은 특히 코드 생성, 추론, 생성 작업에 최적화되어 있으며, 낮은 지연 시간과 높은 처리량을 제공합니다.

핵심 방법론 (Core Methodology)
GLM-4.7-Flash의 핵심은 30B-A3B MoE 아키텍처입니다. 이는 모델의 전체 파라미터 수가 300억 개(30B)에 달하지만, 특정 추론 시점에 실제로 활성화되어 사용되는 파라미터(active parameters)는 30억 개(3B)에 불과하다는 것을 의미합니다. 이러한 MoE 구조는 모델이 대규모의 지식을 가질 수 있게 하면서도, 추론 시에는 필요한 전문가(expert)들만 활성화하여 계산 효율성을 극대화합니다. 이는 총 VRAM 공간은 30B 모델을 위한 확보가 필요하지만, 실제 활성 파라미터가 적기 때문에 추론 속도가 빠르며, 메모리 제약이 있는 환경에서도 효율적인 배포를 가능하게 합니다. 예를 들어, 많이 사용되는 레이어만 VRAM에 탑재하는 방식으로 최적화할 수 있습니다.

벤치마크 성능 (Benchmark Performance)
GLM-4.7-Flash는 다양한 표준 벤치마크 테스트에서 경쟁력 있는 성능을 보여줍니다. 주요 결과는 다음과 같습니다:

  • AIME 25: 91.6 (비교 모델: Qwen3-30B-A3B-Thinking-2507 85.0, GPT-OSS-20B 91.7)
  • GPQA: 75.2 (비교 모델보다 높음)
  • LCB v6: 64.0
  • HLE: 14.4
  • SWE-bench Verified: 59.2 (다른 30B급 모델 대비 높은 점수로 강조됨. Qwen3-Coder 480B의 55.4보다 높지만, Devstral 2 Small (24B)의 68.0%보다는 낮음. SWE-bench Verified의 신뢰성, 데이터 암기 문제 등에 대한 지적도 존재)
  • τ2\tau^2-Bench: 79.5
  • BrowseComp: 42.8

전반적으로 Qwen3-30B-A3B-Thinking-2507 및 GPT-OSS-20B와 같은 동급 모델 대비 우수한 결과를 보여주며, 30B급 모델 중 최고 수준의 성능을 지향합니다.

로컬 배포 및 효율성 (Local Deployment & Efficiency)
GLM-4.7-Flash는 vLLM과 SGLang 추론 프레임워크를 지원하여 로컬 환경에서의 배포를 용이하게 합니다. 사용자 피드백에 따르면, 최소 24GB VRAM 또는 32GB RAM(Mac 기준)으로 구동이 가능하며, 4bit 양자화된 GGUF 버전을 사용할 경우 더 낮은 사양에서도 실행할 수 있습니다. llama.cpp, ollama, LM Studio 등 다양한 툴링을 통해 쉽게 로컬에서 실행할 수 있으며, 특히 llama.cpp를 CUDA 백엔드로 컴파일하여 사용하는 방식이 추천됩니다. 예를 들어, llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf와 같은 명령어로 실행할 수 있습니다. 이는 LLM-as-a-service 비용을 절감하고, Haiku 4.5 대비 1/10 수준의 가격으로 사용 가능한 장점을 제공합니다.

사용자 피드백 및 논의 (User Feedback & Discussion)
사용자들은 GLM-4.7-Flash에 대해 다양한 의견을 공유했습니다.

  • VRAM 효율성: 30B-A3B MoE 구조 덕분에 32GB GPU에서 128k 컨텍스트를 여유롭게 사용할 수 있다는 긍정적인 평가가 있었습니다.
  • 성능 비교: OpenCode, Qwen3-coder, Nemotron 3 Nano, Codex, Claude, Gemini, Cerebras, minimax m2.1, Sonnet 등 다양한 모델과 비교됩니다. 일부 사용자는 Codex가 더 높은 품질을 제공하지만 느리다고 평가했으며, Qwen3-coder가 좋은 결과를 냈다고 언급했습니다. 실제 작업에서는 벤치마크 점수만큼의 성능 차이를 느끼지 못하거나, Sonnet에는 미치지 못한다는 의견도 있었습니다. 그러나 가격 대비 성능(가성비)은 매우 뛰어나다는 평가가 많았습니다. 특히 z.ai의 코딩 플랜과 함께 사용할 때 뛰어난 가성비를 제공한다고 언급되었습니다.
  • 활용성: 코딩, 추론, 생성 작업 외에도 번역, 롤플레이, 미적 생성 등 다양한 용도에서 강력한 성능을 보인다고 설명됩니다.
  • 개선점: 일부 사용자는 지시문 이해력(instruction following)이 부족하다는 점을 지적하며 다음 버전에서의 개선을 기대했습니다. 로컬에서 양자화된 모델을 사용할 경우 잘못된 코드나 무한 루프를 생성하는 등 품질 문제가 보고되기도 했으며, 이는 양자화 방식이나 템플릿 문제일 수 있습니다.
  • 배포 관련 이슈: Cerebras 엔드포인트 사용 시 초당 1000토큰으로 빠르지만, rate limit과 캐시된 토큰에도 요금이 부과되는 방식 때문에 실사용에 불편함을 느끼는 사례도 있었습니다. Ollama를 통한 배포 시 템플릿 완성도 문제가 지적되기도 했습니다.
  • 오픈 모델의 한계: 오픈 모델은 상위 모델을 distillation하여 따라가는 구조이므로, 혁신이 없는 한 항상 뒤처질 수 있다는 의견도 제시되었습니다. 벤치마크는 실제 작업 부하와 다를 수 있다는 점도 강조되었습니다.