gpt-oss

요약

OpenAI가 Ollama와 협력하여 강력한 추론 및 agentic 작업에 최적화된 gpt-oss 20B 및 120B open-weight 모델을 출시했습니다.

이 모델들은 함수 호출, 웹 브라우징, Python 도구 사용 등 agentic capabilities와 함께 chain-of-thought 및 fine-tuning 기능을 제공하며 Apache 2.0 license로 배포됩니다.

MoE weights를 MXFP4 형식으로 양자화하여 메모리 사용량을 크게 줄였으며, 이로 인해 20B 모델은 16GB 메모리에서도 실행 가능하고 Ollama는 해당 형식을 기본 지원합니다.

상세 내용

gpt-oss는 OpenAI가 Ollama와 협력하여 공개한 state-of-the-art open-weight 모델로, 강력한 reasoning, agentic tasks, 그리고 다양한 개발자 use cases를 위해 설계되었습니다. 이 모델은 gpt-oss:20b와 gpt-oss:120b의 두 가지 주요 버전으로 제공되며, Ollama를 통해 로컬에서 실행할 수 있습니다.

모델 구성 및 사양:
* gpt-oss:latest: 14GB 크기, 128K context window, Text 기반.
* gpt-oss:20b: 14GB 크기, 128K context window, Text 기반으로, lower latency, local 또는 specialized use cases에 적합합니다.
* gpt-oss:120b: 65GB 크기, 128K context window, Text 기반입니다.
* 또한 gpt-oss:20b-cloud 및 gpt-oss:120b-cloud와 같이 cloud 환경을 위한 버전도 제공되며, 이들은 동일하게 128K context window를 지원합니다.

주요 특징:
* Agentic capabilities: models는 function calling, Ollama에 내장된 web browsing (선택적 활성화 가능), python tool calls, 그리고 structured outputs과 같은 기능을 natively 지원합니다.
* Full chain-of-thought: 모델의 reasoning process에 대한 완전한 접근을 제공하여 debugging을 용이하게 하고 출력에 대한 신뢰도를 높입니다.
* Configurable reasoning effort: 사용자의 특정 use case 및 latency 요구 사항에 따라 reasoning effort (low, medium, high)를 쉽게 조절할 수 있습니다.
* Fine-tunable: parameter fine-tuning을 통해 사용자의 specific use case에 맞게 모델을 완전히 customiza할 수 있습니다.
* Permissive Apache 2.0 license: copyleft restrictions나 patent risk 없이 자유롭게 build할 수 있어 experimentation, customization, 그리고 commercial deployment에 이상적입니다.

핵심 방법론: Quantization (MXFP4 format):
gpt-oss 모델의 핵심 기술적 특징 중 하나는 memory footprint를 줄이기 위한 quantization입니다. OpenAI는 Mixture-of-Experts (MoE) weights를 MXFP4 format으로 post-training quantization했습니다. MoE weights는 전체 parameter 수의 90% 이상을 차지하며, 이들을 parameter당 4.25 bits로 quantization함으로써 다음과 같은 이점을 제공합니다:
* 더 작은 20B 모델은 16GB의 메모리를 가진 시스템에서도 실행될 수 있습니다.
* 더 큰 120B 모델은 단일 80GB GPU에 fit할 수 있습니다.
Ollama는 MXFP4 format을 추가적인 quantization이나 conversion 없이 natively 지원하며, 이를 위해 새로운 kernels을 Ollama의 새로운 engine에 개발했습니다. Ollama는 OpenAI와 협력하여 reference implementations와 benchmark를 수행하여 동일한 quality를 보장했습니다.

사용자들은 ollama run gpt-oss:20b 또는 ollama run gpt-oss:120b 명령어를 통해 모델을 시작할 수 있습니다.

#LLM #OpenAI #Agent #Quantization #Ollama