gpt-oss
핵심 포인트
- 1OpenAI가 Ollama와 협력하여 강력한 추론 및 agentic 작업에 최적화된 gpt-oss 20B 및 120B open-weight 모델을 출시했습니다.
- 2이 모델들은 함수 호출, 웹 브라우징, Python 도구 사용 등 agentic capabilities와 함께 chain-of-thought 및 fine-tuning 기능을 제공하며 Apache 2.0 license로 배포됩니다.
- 3MoE weights를 MXFP4 형식으로 양자화하여 메모리 사용량을 크게 줄였으며, 이로 인해 20B 모델은 16GB 메모리에서도 실행 가능하고 Ollama는 해당 형식을 기본 지원합니다.
gpt-oss는 OpenAI가 Ollama와 협력하여 공개한 state-of-the-art open-weight 모델로, 강력한 reasoning, agentic tasks, 그리고 다양한 개발자 use cases를 위해 설계되었습니다. 이 모델은 gpt-oss:20b와 gpt-oss:120b의 두 가지 주요 버전으로 제공되며, Ollama를 통해 로컬에서 실행할 수 있습니다.
모델 구성 및 사양:
gpt-oss:latest: 14GB 크기, 128K context window, Text 기반.gpt-oss:20b: 14GB 크기, 128K context window, Text 기반으로, lower latency, local 또는 specialized use cases에 적합합니다.gpt-oss:120b: 65GB 크기, 128K context window, Text 기반입니다.- 또한
gpt-oss:20b-cloud및gpt-oss:120b-cloud와 같이 cloud 환경을 위한 버전도 제공되며, 이들은 동일하게 128K context window를 지원합니다.
주요 특징:
- Agentic capabilities: models는 function calling, Ollama에 내장된 web browsing (선택적 활성화 가능), python tool calls, 그리고 structured outputs과 같은 기능을 natively 지원합니다.
- Full chain-of-thought: 모델의 reasoning process에 대한 완전한 접근을 제공하여 debugging을 용이하게 하고 출력에 대한 신뢰도를 높입니다.
- Configurable reasoning effort: 사용자의 특정 use case 및 latency 요구 사항에 따라 reasoning effort (low, medium, high)를 쉽게 조절할 수 있습니다.
- Fine-tunable: parameter fine-tuning을 통해 사용자의 specific use case에 맞게 모델을 완전히 customiza할 수 있습니다.
- Permissive Apache 2.0 license: copyleft restrictions나 patent risk 없이 자유롭게 build할 수 있어 experimentation, customization, 그리고 commercial deployment에 이상적입니다.
핵심 방법론: Quantization (MXFP4 format):
gpt-oss 모델의 핵심 기술적 특징 중 하나는 memory footprint를 줄이기 위한 quantization입니다. OpenAI는 Mixture-of-Experts (MoE) weights를 MXFP4 format으로 post-training quantization했습니다. MoE weights는 전체 parameter 수의 90% 이상을 차지하며, 이들을 parameter당 4.25 bits로 quantization함으로써 다음과 같은 이점을 제공합니다:
- 더 작은 20B 모델은 16GB의 메모리를 가진 시스템에서도 실행될 수 있습니다.
- 더 큰 120B 모델은 단일 80GB GPU에 fit할 수 있습니다.
사용자들은 ollama run gpt-oss:20b 또는 ollama run gpt-oss:120b 명령어를 통해 모델을 시작할 수 있습니다.