gpt-oss
요약
상세 내용
gpt-oss:20b와 gpt-oss:120b의 두 가지 주요 버전으로 제공되며, Ollama를 통해 로컬에서 실행할 수 있습니다.모델 구성 및 사양:
* gpt-oss:latest: 14GB 크기, 128K context window, Text 기반.
* gpt-oss:20b: 14GB 크기, 128K context window, Text 기반으로, lower latency, local 또는 specialized use cases에 적합합니다.
* gpt-oss:120b: 65GB 크기, 128K context window, Text 기반입니다.
* 또한 gpt-oss:20b-cloud 및 gpt-oss:120b-cloud와 같이 cloud 환경을 위한 버전도 제공되며, 이들은 동일하게 128K context window를 지원합니다.
주요 특징:
* Agentic capabilities: models는 function calling, Ollama에 내장된 web browsing (선택적 활성화 가능), python tool calls, 그리고 structured outputs과 같은 기능을 natively 지원합니다.
* Full chain-of-thought: 모델의 reasoning process에 대한 완전한 접근을 제공하여 debugging을 용이하게 하고 출력에 대한 신뢰도를 높입니다.
* Configurable reasoning effort: 사용자의 특정 use case 및 latency 요구 사항에 따라 reasoning effort (low, medium, high)를 쉽게 조절할 수 있습니다.
* Fine-tunable: parameter fine-tuning을 통해 사용자의 specific use case에 맞게 모델을 완전히 customiza할 수 있습니다.
* Permissive Apache 2.0 license: copyleft restrictions나 patent risk 없이 자유롭게 build할 수 있어 experimentation, customization, 그리고 commercial deployment에 이상적입니다.
핵심 방법론: Quantization (MXFP4 format):
gpt-oss 모델의 핵심 기술적 특징 중 하나는 memory footprint를 줄이기 위한 quantization입니다. OpenAI는 Mixture-of-Experts (MoE) weights를 MXFP4 format으로 post-training quantization했습니다. MoE weights는 전체 parameter 수의 90% 이상을 차지하며, 이들을 parameter당 4.25 bits로 quantization함으로써 다음과 같은 이점을 제공합니다:
* 더 작은 20B 모델은 16GB의 메모리를 가진 시스템에서도 실행될 수 있습니다.
* 더 큰 120B 모델은 단일 80GB GPU에 fit할 수 있습니다.
Ollama는 MXFP4 format을 추가적인 quantization이나 conversion 없이 natively 지원하며, 이를 위해 새로운 kernels을 Ollama의 새로운 engine에 개발했습니다. Ollama는 OpenAI와 협력하여 reference implementations와 benchmark를 수행하여 동일한 quality를 보장했습니다.
사용자들은 ollama run gpt-oss:20b 또는 ollama run gpt-oss:120b 명령어를 통해 모델을 시작할 수 있습니다.