RAG vs. GraphRAG: A Systematic Evaluation and Key Insights
Paper

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Yu Wang
2026.02.25
·Arxiv·by 배레온/부산/개발자
#GraphRAG#Knowledge Graph#LLM#RAG#Systematic Evaluation

핵심 포인트

  • 1이 논문은 RAG와 GraphRAG 방식의 텍스트 기반 질문 응답 및 질의 기반 요약 작업에 대한 체계적인 평가를 통해 각 방법의 고유한 강점과 약점을 분석합니다.
  • 2연구 결과, RAG는 단일 홉 및 세부 정보 질의에 강점을 보였고, GraphRAG는 다중 홉 및 추론 중심 질의에서 더 효과적인 상호 보완적인 성능을 보여주었습니다.
  • 3이러한 상호 보완성을 활용하기 위해 RAG와 GraphRAG의 장점을 통합하는 하이브리드 Retrieval 전략이 제안되었으며, 요약 작업에서는 원본 텍스트 검색 방식이 유리함을 확인했습니다.

이 논문은 Retrieval-Augmented Generation (RAG)과 GraphRAG의 성능을 체계적으로 평가하고 비교하며, 특히 텍스트 기반 태스크에 중점을 둡니다. 기존 연구들은 GraphRAG가 텍스트에서 그래프 구조를 구축하여 추론, 계획, 요약과 같은 태스크에 효과적임을 보여주었지만, 대부분 특정 태스크 및 데이터셋에 특화되어 RAG와의 일반적인 비교 및 이해가 부족했습니다. 본 연구는 이러한 간극을 메우기 위해 잘 정립된 벤치마크 태스크(Question Answering 및 Query-based Summarization)에서 RAG와 GraphRAG의 강점과 약점을 심층적으로 분석하고, 상호 보완적인 강점을 활용하기 위한 통합 전략을 제안합니다.

관련 연구 (Related Works)

  • Retrieval-Augmented Generation (RAG): LLM의 한정된 컨텍스트 윈도우, 사실적 정확성 및 환각 완화를 위해 외부 소스에서 관련 정보를 검색하여 LLM 성능을 향상시키는 데 널리 사용됩니다. 주로 텍스트를 청크로 분할하고 어휘적(lexical) 또는 의미적(semantic) 검색을 통해 관련 청크를 검색합니다.
  • Graph Retrieval-Augmented Generation (GraphRAG): 지식 그래프(KGs)와 같은 그래프 구조화된 데이터에서 정보를 검색하는 것을 목표로 합니다. 최근 연구들은 텍스트 기반 태스크에서 그래프 구축을 GraphRAG에 통합하는 방안을 모색하고 있습니다. 예를 들어, LLM을 사용하여 문서에서 엔티티와 관계를 추출하여 그래프를 구성하고 이를 통해 전역 요약(global summarization)이나 추론(reasoning)을 개선합니다. 하지만 이들의 평가는 특정 태스크에 국한되어 RAG와의 일반적인 비교가 부족합니다.

평가 방법론 (Evaluation Methodology)

공정한 비교를 위해 RAG 및 GraphRAG 방법론 모두에 동일한 실험 설정을 채택했습니다.

  • RAG 구현 (RAG Implementation):
    • 청크 분할 (Chunking): 텍스트를 약 256 토큰 크기의 청크로 분할합니다.
    • 임베딩 모델 (Embedding Model): OpenAI의 text-embedding-ada-002를 사용하여 청크와 쿼리를 벡터 공간에 임베딩합니다.
    • 검색 전략 (Retrieval Strategy): 쿼리에 대해 Top-10 유사성 점수를 가진 청크를 검색하는 의미론적 유사성 기반 접근 방식을 채택합니다.
    • 생성 LLM (Generation LLMs): Llama-3.1-8B-InstructLlama-3.1-70B-Instruct를 사용하여 응답을 생성합니다.
  • GraphRAG 구현 (GraphRAG Implementation):
GraphRAG는 세 가지 주요 검색 세분성(granularity) 범주로 분류됩니다.
  1. KG-based GraphRAG (KG-GraphRAG):
    • 그래프 구성 (Graph Construction): LLM을 사용하여 텍스트 청크에서 삼중항(triplet, (head, relation, tail))을 추출하여 지식 그래프를 구성합니다.
    • 검색 (Retrieval): 쿼리에서 엔티티를 추출하고 구성된 KG의 엔티티와 매칭합니다. 매칭된 엔티티에서 다중 홉(multi-hop) 이웃을 따라 그래프를 탐색하여 삼중항을 검색합니다.
    • 변형 (Variants):
      • KG-GraphRAG (Triplets): 삼중항만 검색합니다.
      • KG-GraphRAG (Triplets+Text): 삼중항과 해당 소스 텍스트를 모두 검색합니다.
  2. Community-based GraphRAG:
    • 그래프 구성 (Graph Construction): LLM을 사용하여 KG를 생성한 후, 그래프 커뮤니티 탐지 알고리즘을 사용하여 계층적 커뮤니티를 구성합니다. 각 커뮤니티는 해당 텍스트 요약 또는 보고서와 연결됩니다. 낮은 수준의 커뮤니티는 원본 텍스트의 상세 정보를 포함하고, 높은 수준의 커뮤니티는 낮은 수준의 커뮤니티의 요약을 제공합니다. (GPT-4o-mini를 사용하여 그래프를 구성합니다.)
    • 검색 (Retrieval):
      • Local Search (Community-GraphRAG (Local)): 쿼리에서 추출된 엔티티와 구성된 그래프 간의 엔티티 매칭을 기반으로 엔티티, 관계, 설명 및 낮은 수준 커뮤니티 보고서를 검색합니다.
      • Global Search (Community-GraphRAG (Global)): 쿼리와의 의미론적 유사성을 기반으로 높은 수준 커뮤니티 요약만 검색합니다.
  3. Text-based GraphRAG (HippoRAG2):
    • 그래프 구성 (Graph Construction): 원본 텍스트 청크를 그래프의 노드로 취급하고, 각 엔티티는 해당 텍스트 청크에 다시 연결되는 KG를 구성합니다.
    • 검색 (Retrieval): KG-based GraphRAG와 유사하게 쿼리에 관련된 엔티티를 식별한 다음, 이 엔티티에 연결된 원본 텍스트 청크를 직접 검색합니다.

질문 응답 태스크 (Question Answering Task)

  • 데이터셋 및 평가 지표 (Datasets and Evaluation Metrics):
    • 단일 홉(Single-hop) QA: Natural Questions (NQ).
    • 다중 홉(Multi-hop) QA: HotPotQA, MultiHop-RAG (추론, 비교, 시간, Null 쿼리).
    • 세분화된 쿼리 유형(Fine-grained Query Types): NovelQA (21가지 쿼리 유형).
    • 지표 (Metrics): NQ 및 HotPotQA에는 Precision (P), Recall (R), F1-score; MultiHop-RAG 및 NovelQA에는 Accuracy.
  • 주요 결과 (Main Results):
    • RAG의 강점: RAG는 단일 홉 쿼리 및 상세 정보가 필요한 쿼리(예: NQ, NovelQA의 단일 홉(sh) 및 세부 지향(dtl) 쿼리)에서 우수한 성능을 보입니다.
    • GraphRAG의 강점: GraphRAG, 특히 Community-GraphRAG (Local)은 다중 홉 쿼리(예: HotPotQA, MultiHop-RAG) 및 추론 집약적인 쿼리에서 더 효과적입니다. NovelQA에서는 전반적으로 RAG보다 낮지만, 다중 홉(mh) 쿼리에서 좋은 성능을 보입니다.
    • Community-GraphRAG (Global)의 약점: QA 태스크에서 주로 고수준 커뮤니티만 검색하여 상세 정보 손실을 야기하므로 성능이 저조합니다. MultiHop-RAG의 Null 쿼리에서 환각(hallucination) 경향을 보입니다.
    • KG-based GraphRAG의 약점: 구성된 KG에서만 정보를 검색하므로 정보 불완전성(예: Hotpot 데이터셋에서 답변 엔티티의 약 65.8%만 KG에 존재)으로 인해 성능이 떨어집니다.
  • 비교 QA 분석 및 성능 향상 (Comparative QA Analysis and Performance Improvement):
    • 상호 보완성 (Complementarity): RAG와 GraphRAG는 상호 보완적입니다. 예를 들어, MultiHop-RAG 데이터셋에서 13.6%의 쿼리는 GraphRAG만 정확히 답하고, 11.6%는 RAG만 정확히 답합니다. 이는 두 방법의 고유한 장점을 활용하여 전체 성능을 향상시킬 가능성을 시사합니다.
    • 통합 전략 (Integration Strategies):
      1. 선택 전략 (Selection Strategy): 쿼리를 사실 기반(fact-based) 또는 추론 기반(reasoning-based)으로 분류하기 위해 LLM의 인-컨텍스트 학습(in-context learning) 능력을 활용합니다. 분류 결과에 따라 쿼리당 RAG 또는 GraphRAG 중 하나를 선택합니다. 효율성이 높습니다.
      2. 통합 전략 (Integration Strategy): RAG와 GraphRAG가 동시에 정보를 검색하고, 검색된 결과를 연결하여 생성기에 전달합니다. 일반적으로 선택 전략보다 높은 성능을 달성하지만, 계산 비용이 더 큽니다.
    • 두 전략 모두 전반적인 QA 성능을 향상시키는 것으로 나타났습니다.

쿼리 기반 요약 태스크 (Query-Based Summarization Task)

  • 데이터셋 및 평가 지표 (Datasets and Evaluation Metrics):
    • 단일 문서 요약 (Single-document Summarization): SQuALITY, QMSum.
    • 다중 문서 요약 (Multi-document Summarization): ODSum-story, ODSum-meeting.
    • 지표 (Metrics): ROUGE-2 (어휘적 유사성), BERTScore (의미론적 유사성).
  • 요약 실험 결과 (Summarization Experimental Results):
    • RAG 및 HippoRAG2의 강점: 원본 텍스트 청크를 검색하여 Ground Truth와 더 밀접하게 일치하므로 일반적으로 우수한 성능을 보입니다.
    • KG-GraphRAG (Triplets+Text)의 강점: 삼중항과 해당 텍스트를 결합하면 더 많은 세부 정보를 통합하여 성능이 향상됩니다.
    • Community-GraphRAG (Local)의 강점: 엔티티, 관계, 하위 수준 커뮤니티를 검색하므로 Global search보다 우수합니다. 이는 선택된 데이터셋에서 상세 정보의 중요성을 보여줍니다.
    • 통합 전략 (Integration Strategy): RAG 단독과 비교할 때 유사한 성능을 보입니다.
  • 기존 평가에서의 위치 편향 (Position Bias in Existing Evaluation):
    • Community-based GraphRAG (Global)의 낮은 성능은 Edge et al. (2024)의 결과와 대조됩니다. 이는 LLM-as-a-Judge 평가 방식이 요약 태스크에서 위치 편향(position bias)을 유발할 수 있음을 시사합니다. LLM이 입력 시퀀스의 시작 부분에 있는 정보를 더 중요하게 여기는 경향이 있어, 요약 시스템의 실제 성능을 왜곡할 수 있습니다. 예를 들어, 이상적인 요약 문장이 입력 중간에 있더라도, LLM-as-a-Judge는 이를 간과하고 다른 부분에서 생성된 요약을 더 선호할 수 있습니다. 이는 특히 긴 입력 또는 여러 소스에서 정보를 통합해야 하는 시나리오에서 LLM-as-a-Judge의 신뢰성에 영향을 미칩니다.

결론 (Conclusion)

이 연구는 RAG와 GraphRAG의 장단점을 명확히 보여주며, 각 방법이 특정 유형의 쿼리와 태스크에서 우수함을 강조합니다. RAG는 단일 홉 및 상세 쿼리에 강하고, GraphRAG (특히 Local 커뮤니티 기반)는 다중 홉 및 추론 쿼리에 강합니다. 두 방법의 상호 보완적인 특성을 활용한 선택 및 통합 전략은 QA 성능을 향상시킬 수 있습니다. 또한, 요약 태스크에서 기존 LLM-as-a-Judge 평가의 잠재적인 위치 편향 문제를 지적하며, 향후 GraphRAG 연구의 개선 방향(예: 그래프 완전성 향상, 공정한 평가 방법 개발)을 제시합니다.