Blog

Fine-tuning a Multimodal Model Using SFT (Single or Multi-Image Dataset)

2025.04.20

·Hugging Face·by Anonymous

#Multimodal Model#SFT#Fine-tuning#VLM#LLM

핵심 포인트

1이 문서는 TRL 라이브러리를 사용하여 Gemma 3와 같은 멀티모달 언어 모델을 단일 또는 다중 이미지 데이터셋으로 SFT(Supervised Fine-Tuning)하는 과정을 안내합니다.
2QLoRA 및 BitsAndBytes를 활용하여 메모리 효율적인 학습 설정을 다루며, 특히 멀티모달 입력을 처리하기 위한 사용자 정의 `collate_fn` 구현 방법을 상세히 설명합니다.
3HuggingFaceH4/llava-instruct-mix-vsft와 FanqingM/MMIU-Benchmark 데이터셋을 예시로 들어, 환경 설정, 데이터 로딩 및 전처리, 모델 및 학습 인자 준비, 그리고 모델 학습 및 저장까지의 전체 워크플로우를 제시합니다.

load_in_4bit=True

Blog

2025.04.20

·Hugging Face·by Anonymous

#Multimodal Model#SFT#Fine-tuning#VLM#LLM

1이 문서는 TRL 라이브러리를 사용하여 Gemma 3와 같은 멀티모달 언어 모델을 단일 또는 다중 이미지 데이터셋으로 SFT(Supervised Fine-Tuning)하는 과정을 안내합니다.
2QLoRA 및 BitsAndBytes를 활용하여 메모리 효율적인 학습 설정을 다루며, 특히 멀티모달 입력을 처리하기 위한 사용자 정의 `collate_fn` 구현 방법을 상세히 설명합니다.
3HuggingFaceH4/llava-instruct-mix-vsft와 FanqingM/MMIU-Benchmark 데이터셋을 예시로 들어, 환경 설정, 데이터 로딩 및 전처리, 모델 및 학습 인자 준비, 그리고 모델 학습 및 저장까지의 전체 워크플로우를 제시합니다.

load_in_4bit=True