Ultimate prompting guide for Nano Banana | Google Cloud Blog
핵심 포인트
- 1Nano Banana 모델들은 Gemini 3 모델군을 기반으로 심층적인 추론 능력과 실시간 웹 검색 정보를 활용하여 정확하고 풍부한 이미지 생성 및 편집 기능을 제공합니다.
- 2Nano Banana 2와 Nano Banana Pro는 0.5K에서 4K에 이르는 다양한 해상도와 Aspect Ratio, 최대 14개의 참조 이미지 입력, 텍스트 렌더링, 그리고 C2PA Content Credentials 및 SynthID 워터마크와 같은 고급 기능을 지원합니다.
- 3이 가이드는 구체적인 묘사, 카메라 제어 등 효과적인 Prompting Best Practice와 Image generation, Image editing, 실시간 정보 활용, Text rendering, Creative Director 스타일을 포함한 5가지 프롬프팅 프레임워크를 제시하며, Veo 및 Lyria와 같은 다른 모델과의 연동을 강조합니다.
이 문서는 AI 기반 이미지 생성 및 편집 모델인 Nano Banana 2 및 Nano Banana Pro의 효과적인 사용법에 대한 종합 가이드입니다. 이 가이드는 사용자가 정확하고 고품질의 시각 자료를 생성할 수 있도록 돕기 위해 모델의 기능, 기술 사양, 그리고 최적의 프롬프팅 전략을 자세히 설명합니다.
모델 개요 (Model Overview)
Nano Banana 모델은 Gemini 3 모델군을 기반으로 하며, 심층적인 추론 능력과 실세계 지식을 활용하여 정밀하고 풍부한 시각적 결과를 제공합니다. 특히 Nano Banana 2는 세 가지 주요 강점을 가지고 있습니다. 첫째, 웹 검색에서 얻은 실시간 정보와 이미지를 통해 더욱 정확한 비주얼을 구현합니다. 둘째, 텍스트 렌더링 및 번역, 2K/4K 업스케일링과 같은 Pro-level 기능을 제공하여 전문적인 창작 작업을 지원합니다. 셋째, 16:9, 9:16, 2:1 등 다양한 종횡비(aspect ratio)를 기본적으로 지원하여 높은 정밀 제어(precision control)를 가능하게 합니다.
기술 사양 분석 (Breakdown of Tech Specs)
API 및 Vertex AI를 통해 제공되는 Nano Banana 2 (Gemini 3.1 Flash Image)와 Nano Banana Pro (Gemini 3 Pro Image)의 주요 기술 사양은 다음과 같습니다.
- Context Windows: Gemini 3.1 Flash Image는 최대 131,072개의 입력 토큰(input tokens)을 지원하며, Gemini 3 Pro Image는 최대 65,536개의 입력 토큰을 지원합니다. 두 모델 모두 최대 32,768개의 출력 토큰(output tokens)을 지원합니다.
- 해상도 (Resolutions): 1K, 2K, 4K 비주얼 생성을 기본으로 제공하며, Gemini 3.1 Flash Image는 추가로 512px (0.5K) 해상도를 지원합니다.
- 종횡비 (Aspect Ratios): 두 모델 모두 1:1, 3:2, 2:3, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9를 지원하며, Gemini 3.1 Flash Image Preview는 1:4, 4:1, 1:8, 8:1을 추가 지원합니다.
- 이미지 입력 (Image Inputs): 단일 프롬프트(single prompt) 내에서 최대 14개의 참조 객체(reference object) 이미지를 혼합할 수 있습니다. 지원되는 MIME types는
image/png,image/jpeg,image/webp,image/heic,image/heif입니다. - 문서 입력 (Document Inputs): 텍스트 및 PDF 파일을 입력할 수 있으며, 파일당 최대 크기는 API 및 Cloud Storage import의 경우 50 MB, Google Cloud console을 통한 직접 업로드의 경우 7 MB입니다.
- 출력 (Outputs): 텍스트 및 이미지를 모두 출력합니다.
- 모델 지식 기반 (Model Knowledge Base): 두 모델 모두 2025년 1월을 지식 마감일(knowledge cutoff date)로 합니다.
- 실시간 데이터 (Live Data): 두 모델 모두 웹 검색을 통해 실시간 정보를 활용합니다.
- 신뢰 및 안전 (Trust & Safety): 생성된 모든 이미지에는 C2PA Content Credentials 및 SynthID watermark가 포함됩니다.
효과적인 프롬프팅을 위한 모범 사례 (Best Practices for Effective Prompting)
정확한 비주얼을 얻기 위해서는 구체성(specificity), 긍정적인 프레이밍(positive framing), 카메라 제어(camera control)와 같은 가이드라인을 따르고, 대화식으로 프롬프트(prompt)를 반복하여 개선하는 것이 중요합니다. 프롬프트는 강력한 동사(verb)로 시작하여 모델에 수행할 기본 작업을 명확히 지시해야 합니다.
다섯 가지 프롬프팅 프레임워크 (Five Prompting Frameworks)
- 이미지 생성 (Image Generation)
- 참조 없는 텍스트-투-이미지 생성 (Text-to-image generation without references): 빈 캔버스에서 시작할 때, 단순한 키워드 목록이 아닌 서술적으로 장면을 묘사해야 합니다.
- 공식 (Formula): [Subject] + [Action] + [Location/context] + [Composition] + [Style]
- 멀티모달 생성 (Multimodal generation with references): 여러 참조 이미지를 결합하여 최종 결과물을 가이드합니다. 캐릭터 일관성 유지 또는 특정 제품을 새로운 환경에 통합할 때 유용합니다.
- 공식 (Formula): [Reference images] + [Relationship instruction] + [New scenario]
- 참조 없는 텍스트-투-이미지 생성 (Text-to-image generation without references): 빈 캔버스에서 시작할 때, 단순한 키워드 목록이 아닌 서술적으로 장면을 묘사해야 합니다.
- 이미지 편집 (Image Editing)
- 대화식 편집 (Conversational editing without new references): 이미 생성된 이미지를 수정할 때 사용합니다. 텍스트를 통해 "마스크(mask)"를 정의하여 이미지의 특정 부분을 편집하고 나머지는 그대로 유지하는 Semantic masking (inpainting)이 가능합니다.
- 구성 및 스타일 전송 (Composition and style transfer with new references): 기존 이미지에 새로운 이미지를 추가하여 변경합니다. 요소를 추가하거나(adding elements) 기존 콘텐츠의 스타일을 다른 예술적 스타일로 변경하는 스타일 전송(style transfer)이 가능합니다.
- 웹 검색을 통한 실시간 정보 (Real-time information from web search)
- 공식 (Formula): [Source/Search request] + [Analytical task] + [Visual translation]
- 텍스트 렌더링 및 현지화 (Text rendering & localization)
- 최적의 타이포그래피 결과를 위한 규칙: 따옴표 사용, 글꼴 설명 또는 이름 명시, 번역 및 현지화 지시.
- 텍스트 우선 해킹 (Text-first hack): 텍스트 개념을 먼저 대화하여 생성한 후, 해당 텍스트를 포함한 이미지를 요청하는 것이 효과적입니다.
- 크리에이티브 디렉터처럼 프롬프팅하기 (Prompting like a Creative Director)
- 조명 설계 (Design your lighting): "three-point softbox setup" 또는 "Chiaroscuro lighting"과 같이 장면 조명 방식을 구체적으로 지시합니다.
- 카메라, 렌즈 및 초점 선택 (Choose your camera, lens, and focus): "GoPro", "Fujifilm", "low-angle shot with a shallow depth of field (f/1.8)", "wide-angle lens", "macro lens"와 같은 특정 하드웨어 및 사진 용어를 사용하여 깊이, 왜곡 및 원근감을 제어합니다.
- 색상 보정 및 필름 스톡 정의 (Define the color grading and film stock): "1980s color film" 또는 "Cinematic color grading with muted teal tones"와 같이 최종 이미지의 질감과 색상을 지정하여 감성적인 톤을 설정합니다.
- 재료 및 질감 강조 (Emphasize materiality and texture): "navy blue tweed", "ornate elven plate armor, etched with silver leaf patterns", "minimalist ceramic coffee mug"와 같이 로고, 제품 또는 캐릭터의 물리적 구성을 상세히 정의합니다.
추가 활용 (Go Further)
Nano Banana 모델은 다른 생성 AI 모델과 원활하게 연동됩니다. Gemini 3는 프롬프트 생성과 창의적 지시를 돕고, Veo는 Nano Banana로 생성된 키프레임을 바탕으로 애니메이션 비디오를 생성하며, Lyria는 프로젝트 비주얼에 맞춤형 AI 사운드트랙을 추가할 수 있습니다.