RAG

[RAG] 논문 리뷰 - LightRAG : Simple and fast retreval-augmented generation

moonzoo 2025. 4. 30. 18:28

 

0. ABSTRACT

LightRAG은 외부 지식 기반을 통합해 대규모 언어 모델(LLM)의 성능을 향상시키는 검색 기반 생성(RAG) 시스템입니다. 기존 RAG의 한계인 단순(flat)한 데이터 표현과 부족한 맥락 이해로 인한 단편적 응답 문제를 해결하고자, LightRAG은 그래프 구조를 인덱싱 및 검색에 도입합니다.

이 시스템은 다음의 주요 특징을 갖습니다:

  • 이중 검색 구조: 낮은 수준의 지식 검색과 높은 수준의 지식 검색 모두에서 포괄적인 정보 검색을 향상 시키는 이중 검색 구조를 사용하여 더 포괄적이고 정확한 응답을 제공합니다. 
  • 그래프 + 벡터 통합: 개체 간 관계와 의미 유사성을 동시에 고려하여 관련 정보의 효율적 검색을 가능하게 합니다.
  • 증분 업데이트 알고리즘: 새로운 정보를 빠르게 반영할 수 있어 변화하는 환경에도 민첩하게 대응합니다.

실험을 통해 기존 방식보다 정확성과 효율성에서 우수한 성능을 입증하였으며, 오픈소스로 공개되었습니다.

 

1. INTRODUCTION

이 섹션에서는 먼저 검색 증강 생성 (Retrieval-Augmented Generation, RAG) 시스템이 무엇인지 설명합니다. RAG는 대규모 언어 모델(LLM)이 외부 지식 소스를 활용하여 더 정확하고 맥락에 맞는 답변을 생성하도록 돕는 기술입니다. 이를 통해 특정 분야 지식에 적응하고 최신 정보를 반영하는 등 실제 활용도를 크게 높일 수 있습니다. 특히, 정보를 작은 단위로 나누는 'Chunking'은 검색 정확도를 높이는 데 중요한 역할을 합니다.

 

하지만 기존 RAG 시스템에는 한계점이 있습니다. 많은 시스템이 데이터를 평면적으로 처리하여 정보 간의 복잡한 관계를 파악하는 데 어려움을 겪고, 여러 정보와 그 관계를 아우르는 맥락 인식이 부족하여 사용자의 질문에 완전히 부합하는 답변을 만들기 어렵습니다. 예를 들어, 전기차, 대기 질, 대중교통 간의 복잡한 상호작용에 대한 질문에 대해 단편적인 정보만 제공할 수 있습니다. 이러한 한계를 극복하기 위해, 저자들은 텍스트 인덱싱과 정보 검색에 그래프(Graph) 구조를 도입할 것을 제안합니다.

 

그래프는 정보 간의 상호 의존성을 효과적으로 표현하여 관계에 대한 더 깊은 이해를 가능하게 하고, 여러 정보를 종합하여 일관성 있고 풍부한 맥락의 답변을 생성하는 데 도움을 줍니다. 하지만 그래프 기반 RAG 시스템은 포괄적인 정보 검색, 검색 효율성 향상, 새로운 데이터에 대한 빠른 적응이라는 세 가지 주요 과제를 해결해야 합니다. 이러한 과제에 대응하여 저자들은 LightRAG 모델을 제안합니다.

 

LightRAG는 그래프 기반 텍스트 인덱싱과 이중 레벨 검색 프레임워크(저수준/고수준 검색)를 결합하여 정보 간의 복잡한 관계를 효과적으로 포착하고, 다양한 유형의 질문에 대해 관련성 높고 포괄적인 답변을 제공합니다. 또한 그래프 구조와 벡터 표현을 통합하여 효율성과 결과의 포괄성을 모두 높입니다.

 

마지막으로, 이 논문의 핵심 기여는 다음과 같습니다:

  • 기존 RAG의 한계를 극복하기 위한 그래프 기반 RAG 시스템의 중요성을 강조합니다. 그래프 구조를 텍스트 인덱싱에 통합함으로써 개체 간의 복잡한 상호 의존성을 효과적으로 표현하여 관계에 대한 미묘한 이해를 촉진하고 일관성 있고 맥락이 풍부한 응답을 가능하게 할 수 있습니다.
  • 효율적이고 적응성 높은 시스템을 위해 LightRAG 방법론(이중 레벨 검색, 그래프 + 벡터 통합, 증분 업데이트 등)을 제안합니다. 이 접근 방식은 포괄적이고 비용 효율적인 검색을 위해 로우레벨과 하이레벨 정보를 모두 캡처하며, 전체 색인을 재구축할 필요가 없어 계산 비용을 줄이고 빠르게 적용할 수 있습니다. 또한 증분 업데이트 알고리즘을 통해 새로운 데이터를 적시에 통합하여 동적인 환경에서도 효율성을 유지합니다.
  • 광범위한 실험을 통해 LightRAG가 기존 모델 대비 검색 정확도, 응답 효율성, 적응성 측면에서 상당한 개선을 보였음을 입증합니다.

2. RETRIEVAL-AUGMENTED GENERATION

이 섹션에서는 RAG의 기본 구성 요소를 더 자세히 정의합니다. RAG는 크게 두 가지 요소로 구성됩니다.

  1. 검색 컴포넌트 (Retrieval Component): 사용자의 질문(query)을 기반으로 외부 지식 데이터베이스에서 관련성 높은 문서나 정보를 찾아오는 역할을 합니다.
  2. 생성 컴포넌트 (Generation Component): 검색된 정보를 활용하여 일관성 있고 맥락에 맞는 답변을 생성합니다. 언어 모델의 능력을 사용하여 의미 있는 결과물을 만들어냅니다.

이를 수식으로 표현하면 다음과 같습니다:

,       ,     

여기서 각 기호는 다음을 의미합니다:

  • : 전체 RAG 프레임워크
  • : 생성 모듈 (Generation module)
  • : 검색 모듈 (Retrieval module)
    • : 데이터 인덱서 (Data Indexer) - 외부 데이터베이스 를 기반으로 특정 데이터 구조 를 구축합니다.
    • : 데이터 검색기 (Data Retriever) - 인덱싱된 데이터 에서 질문 와 비교하여 관련 문서를 검색합니다.
  • : 입력 질문 (Input query)
  • : 외부 데이터베이스 (External database)
  • : 인덱싱된 데이터 구조

이어서, 이 연구에서 효율적이고 효과적인 RAG 시스템을 위해 목표하는 핵심 사항들을 다시 한번 강조합니다:

  • 포괄적인 정보 검색: 인덱싱 기능()은 모델의 질문 답변 능력을 향상시키기 위해 전역적인 정보(global information)를 잘 추출해야 합니다.
  • 효율적이고 저비용의 검색: 인덱싱된 데이터 구조()는 대량의 질문을 효과적으로 처리하기 위해 빠르고 비용 효율적인 검색을 가능하게 해야 합니다.
  • 데이터 변경에 대한 빠른 적응: 외부 지식 기반의 새로운 정보를 통합하기 위해 데이터 구조를 신속하고 효율적으로 조정하는 능력은 시스템이 변화하는 정보 환경에서 최신 상태를 유지하고 관련성을 확보하는 데 중요합니다.

3. THE LIGHTRAG ARCHITECTURE

3.1 Graph-Based Text Indexing (그래프 기반 텍스트 인덱싱)

LightRAG는 먼저 문서를 작고 관리하기 쉬운 단위로 분할(segmenting)합니다. 그 후, LLM을 활용하여 각 조각에서 이름, 날짜, 장소, 사건과 같은 개체(entities)와 그들 사이의 관계(relationships)를 추출합니다. 이 정보를 모아 문서 전체의 연결성과 통찰력을 보여주는 포괄적인 지식 그래프(knowledge graph, )를 생성합니다.

 

이 그래프 생성 모듈은 다음과 같이 표현합니다 :

이는 크게 세 단계로 이루어집니다:

  1. 개체 및 관계 추출 (Extracting Entities and Relationships, R(·)): LLM을 사용하여 텍스트 데이터 내에서 개체(노드)와 관계(엣지)를 식별합니다. (예: "심장병 전문의는 심장 문제를 진단한다" -> 개체: 심장병 전문의, 심장병 / 관계: 진단하다) 효율성을 위해 원문 는 여러 조각 로 나뉩니다.
  2. 키-값 쌍 생성을 위한 LLM 프로파일링 (LLM Profiling for Key-Value Pair Generation, P(·)): LLM 기반 프로파일링 함수 를 사용하여 각 개체 노드와 관계 엣지에 대한 텍스트 키-값 쌍(K, V)을 생성합니다. 키(K)는 효율적인 검색을 위한 단어나 짧은 구문이며, 값(V)은 텍스트 생성에 도움이 되는 관련 외부 데이터 요약 문단입니다. 개체는 이름을 키로 사용하고, 관계는 연결된 개체의 전역적 주제를 포함하도록 LLM이 강화한 여러 키를 가질 수 있습니다.
  3. 그래프 연산 최적화를 위한 중복 제거 (Deduplication to Optimize Graph Operations, D(·)): 여러 텍스트 조각 에서 동일한 개체와 관계를 식별하고 병합하는 중복 제거 함수 를 구현합니다. 이는 그래프()의 크기를 최소화하여 그래프 연산 오버헤드를 줄이고 데이터 처리 효율성을 높입니다.

이러한 그래프 기반 인덱싱은 두 가지 장점을 제공합니다:

  • 포괄적인 정보 이해: 구축된 그래프 구조는 여러 문서 조각에 걸친 복잡한 질문을 처리하는 능력을 크게 향상시킵니다(멀티-홉 서브그래프 활용).
  • 향상된 검색 성능: 그래프에서 파생된 키-값 데이터 구조는 빠르고 정확한 검색에 최적화되어 있어, 기존의 덜 정확한 임베딩 매칭이나 비효율적인 청크 순회 방식보다 우수합니다.

또한, LightRAG는 새로운 지식 기반에 빠르게 적응할 수 있도록 증분 업데이트(incremental update) 방식을 사용합니다. 새 문서 가 들어오면, 전체 데이터베이스를 재처리할 필요 없이 기존과 동일한 그래프 인덱싱 단계를 거쳐 새로운 그래프 데이터()를 생성한 후, 기존 그래프 데이터()와 결합(union)합니다. 이는 새 데이터를 원활하게 통합하면서 기존 구조를 유지하고, 전체 인덱스를 재구축할 필요가 없어 계산 오버헤드를 줄여 시스템을 최신 상태로 유지하고 자원을 절약합니다.

3.2 Dual-Level Retrieval Paradigm (이중 레벨 검색 패러다임)

LightRAG는 특정 문서 조각과 그 사이의 복잡한 상호 의존성 모두에서 관련 정보를 검색하기 위해, 상세 수준(detailed)과 추상 수준(abstract) 모두에서 쿼리 키를 생성하는 이중 레벨 검색 패러다임을 제안합니다.

  • 쿼리 유형:
    • 구체적 쿼리 (Specific Queries): 세부 정보 지향적이며 그래프 내 특정 개체를 참조합니다. (예: "'오만과 편견'은 누가 썼나요?")
    • 추상적 쿼리 (Abstract Queries): 특정 개체에 직접 묶이지 않는 더 넓은 주제, 요약, 또는 포괄적인 테마를 포함합니다. (예: "인공지능은 현대 교육에 어떤 영향을 미치나요?")
  • 검색 전략:
    • 저수준 검색 (Low-Level Retrieval): 특정 개체와 관련 속성 또는 관계 검색에 주로 초점을 맞춥니다. (구체적 쿼리 처리)
    • 고수준 검색 (High-Level Retrieval): 더 넓은 주제와 포괄적인 테마를 다룹니다. 여러 관련 개체 및 관계에 걸쳐 정보를 집계하여 상위 수준 개념과 요약에 대한 통찰력을 제공합니다. (추상적 쿼리 처리)
  • 효율적 검색을 위한 그래프와 벡터 통합: 그래프 구조와 벡터 표현을 결합하여 개체 간 상호 관계에 대한 더 깊은 통찰력을 얻습니다. 이를 통해 지역적(local) 및 전역적(global) 키워드를 효과적으로 활용하여 검색 프로세스를 간소화하고 결과의 관련성을 높입니다.
    1. 쿼리 키워드 추출: 주어진 쿼리 에서 지역 쿼리 키워드 와 전역 쿼리 키워드 를 추출합니다.
    2. 키워드 매칭: 효율적인 벡터 데이터베이스를 사용하여 지역 키워드를 후보 개체와, 전역 키워드를 전역 키에 연결된 관계와 매칭합니다.
    3. 고차 관련성 통합: 검색된 그래프 요소의 지역 서브그래프 내 이웃 노드(neighboring nodes)를 추가로 수집하여 쿼리를 고차 관련성으로 강화합니다. (검색된 노드 와 엣지 의 One-홉 이웃 노드 포함)

이 이중 레벨 검색 패러다임은 키워드 매칭을 통해 관련 개체 및 관계의 효율적인 검색을 할 수 있을 뿐만 아니라, 구축된 지식 그래프의 관련 구조 정보를 통합하여 결과의 포괄성을 향상시킵니다.

3.3 Retrieval-Augmented Answer Generation (검색 증강 답변 생성)

검색된 정보()를 활용하여, LightRAG는 범용 LLM을 사용하여 답변을 생성합니다. LLM에 입력되는 데이터는 프로파일링 함수()에 의해 생성된 관련 개체 및 관계의 연결된 값(concatenated values) V로 구성되며, 여기에는 이름, 개체 및 관계 설명, 원문 발췌 등이 포함됩니다. 사용자의 쿼리와 이 다중 소스 텍스트를 통합함으로써, LLM은 쿼리 의도에 맞춰진 적절한 답변을 생성합니다.

3.4 Complexity Analysis of the LightRAG Framework (LightRAG 프레임워크의 복잡성 분석)

LightRAG 프레임워크의 복잡성은 크게 두 부분으로 나뉩니다.

  1. 그래프 기반 인덱싱 단계: 각 텍스트 청크에서 개체와 관계를 추출하기 위해 LLM을 사용합니다. LLM 호출 횟수는 총 토큰 수 / 청크 크기에 비례합니다. 이 과정에는 추가적인 오버헤드가 거의 없어 새로운 텍스트 업데이트 관리에 매우 효율적입니다.
  2. 그래프 기반 검색 단계: 각 쿼리에 대해 먼저 LLM을 사용하여 관련 키워드를 생성합니다. 검색 메커니즘은 다른 RAG 시스템처럼 벡터 기반 검색에 의존하지만, 기존 RAG처럼 청크를 검색하는 대신 개체와 관계를 검색합니다. 이는 GraphRAG에서 사용되는 커뮤니티 기반 순회 방법과 비교할 때 검색 오버헤드를 현저히 줄입니다.

4. EVALUATION

이 섹션에서는 제안된 LightRAG 프레임워크의 효과를 평가하기 위해 벤치마크 데이터에 대한 실험 결과를 제시합니다. 평가는 다음 네 가지 연구 질문(RQ)에 답하는 것을 목표로 합니다:

  • (RQ1): LightRAG는 기존 RAG 기준 모델들과 비교하여 생성 성능 면에서 어떤가요?
  • (RQ2): 이중 레벨 검색과 그래프 기반 인덱싱은 LightRAG의 생성 품질을 어떻게 향상시키나요?
  • (RQ3): 다양한 시나리오의 사례 연구를 통해 LightRAG는 어떤 구체적인 장점을 보여주나요?
  • (RQ4): LightRAG와 관련된 비용은 얼마이며, 데이터 변경에 대한 적응성은 어떤가요?

4.1 Experimental Settings (실험 설정)

  • 평가 데이터셋: UltraDomain 벤치마크에서 4개의 데이터셋(Agriculture, CS, Legal, Mix)을 선택했습니다. 이 데이터셋들은 대학 교재에서 가져온 것으로, 60만 ~ 500만 토큰 규모를 가집니다.
  • 질문 생성: 각 데이터셋의 전체 텍스트를 맥락으로 사용하여, LLM을 통해 각 데이터셋당 125개의 복잡한 질문(전체 코퍼스 이해 필요)을 생성했습니다. 이는 가상의 사용자 프로필과 작업 시나리오를 기반으로 합니다.
  • 비교 기준 모델 (Baselines): LightRAG를 Naive RAG, RQ-RAG, HyDE, GraphRAG와 같은 최신 기술들과 비교했습니다.
  • 구현 세부 사항: nano 벡터 데이터베이스를 사용했고, LLM 기반 작업에는 기본적으로 GPT-4o-mini를 사용했습니다. 청크 크기는 1200으로 통일했습니다.
  • 평가 지표: 정답 정의가 어려운 복잡한 RAG 쿼리를 평가하기 위해, 기존 연구를 바탕으로 LLM 기반 다차원 비교 방법을 채택했습니다. GPT-4o-mini를 심판(judge)으로 사용하여 LightRAG와 각 기준 모델의 답변을 다음 네 가지 차원에서 비교하고 승률(win rate)을 계산했습니다:
    1. 포괄성 (Comprehensiveness): 답변이 질문의 모든 측면과 세부 사항을 얼마나 철저하게 다루는가?
    2. 다양성 (Diversity): 답변이 질문과 관련된 다양한 관점과 통찰력을 얼마나 풍부하게 제공하는가?
    3. 역량 강화/유용성 (Empowerment): 답변이 독자가 주제를 이해하고 정보에 입각한 판단을 내릴 수 있도록 얼마나 효과적으로 돕는가?
    4. 종합 (Overall): 앞선 세 가지 기준을 종합하여 전반적으로 가장 우수한 답변은 무엇인가?
    • 답변 제시 순서에 따른 잠재적 편향을 줄이기 위해 각 답변의 위치를 번갈아 제시했습니다.

4.2 Comparison of LightRAG with Existing RAG Methods (RQ1: 기존 RAG 방법과의 비교)

 

LightRAG와 기준 모델들을 비교한 결과(Table 1), 위와 같은 결론을 도출했습니다:

  • 그래프 강화 RAG 시스템의 우수성: 대규모 코퍼스와 복잡한 쿼리를 처리할 때, LightRAG 및 GraphRAG와 같은 그래프 기반 RAG 시스템은 NaiveRAG, HyDE, RQRAG 같은 순수 청크 기반 검색 방법보다 일관되게 우수한 성능을 보였습니다. 이러한 성능 차이는 데이터셋 크기가 커질수록(특히 가장 큰 Legal 데이터셋) 더욱 두드러졌습니다. 이는 그래프 기반 시스템이 대규모 코퍼스 내의 복잡한 의미론적 의존성을 포착하는 데 유리함을 시사합니다.
  • LightRAG의 응답 다양성 향상: LightRAG는 특히 더 큰 Legal 데이터셋에서 다양성(Diversity) 지표에서 상당한 이점을 보였습니다. 이는 LightRAG의 이중 레벨 검색 패러다임이 저수준 및 고수준 차원 모두에서 포괄적인 정보 검색을 가능하게 하여 다양한 콘텐츠 생성이 중요한 시나리오에서 효과적임을 나타냅니다.
  • GraphRAG 대비 LightRAG의 우위: 두 모델 모두 그래프 기반 검색 메커니즘을 사용하지만, LightRAG는 특히 더 크고 복잡한 언어 컨텍스트를 가진 데이터셋(Agriculture, CS, Legal)에서 GraphRAG보다 일관되게 우수한 성능을 보였습니다. 이는 LightRAG의 이중 레벨 검색(저수준의 특정 개체 검색과 고수준의 광범위한 주제 검색 결합)이 응답 다양성을 높이고, 상세 정보와 포괄적 주제 모두에 접근하여 상호 연결된 주제를 포함하는 복잡한 쿼리를 능숙하게 처리하기 때문인 것으로 분석됩니다.

4.3 Ablation Studies (RQ2: 절제 연구)

LightRAG의 핵심 요소인 이중 레벨 검색 패러다임과 그래프 기반 텍스트 인덱싱의 효과를 평가하기 위해 절제 연구를 수행했습니다(Table 2)

  • 이중 레벨 검색 패러다임의 효과:
    • 저수준 검색만 사용 (-High): 고수준 검색을 제거하자 거의 모든 데이터셋과 지표에서 성능이 크게 저하되었습니다. 이는 특정 정보에 지나치게 집중하여 포괄적인 통찰력이 필요한 복잡한 쿼리 처리 능력이 떨어지기 때문입니다.
    • 고수준 검색만 사용 (-Low): 특정 개체 대신 개체 간 관계를 활용하여 더 광범위한 콘텐츠를 포착하는 데 유리하여 포괄성 면에서는 이점이 있지만, 특정 개체에 대한 심층 분석 능력이 줄어들어 매우 상세한 답변이 필요한 작업에는 어려움을 겪을 수 있습니다.
    • 하이브리드 모드 (전체 LightRAG): 저수준과 고수준 검색의 장점을 결합하여, 광범위한 관계를 검색하는 동시에 특정 개체에 대한 심층 탐색을 수행합니다. 이 이중 접근 방식은 검색 과정의 폭과 분석의 깊이를 모두 보장하여 여러 차원에서 균형 잡힌 성능을 달성합니다.
  • 의미론적 그래프의 우수성 (RAG에서): 검색 과정에서 원본 텍스트 사용을 제거(-Origin)한 변형 모델은 놀랍게도 모든 데이터셋에서 성능 저하가 크지 않았으며, 일부 경우(Agriculture, Mix)에서는 오히려 성능이 향상되었습니다. 이는 그래프 기반 인덱싱 과정에서 핵심 정보가 효과적으로 추출되어 쿼리에 답변하기에 충분한 컨텍스트를 제공하며, 원본 텍스트에 포함된 관련 없는 정보(노이즈)가 제거될 수 있음을 시사합니다.

4.4 Case Study (RQ3: 사례 연구)

LightRAG와 경쟁력 있는 기준 모델인 GraphRAG의 답변을 비교하기 위해 특정 사례(Table 3)를 제시했습니다. 머신러닝 질문에 대한 답변을 LLM 심판이 평가한 결과, LightRAG가 포괄성, 다양성, 역량 강화, 종합 품질 모든 차원에서 GraphRAG보다 우수했습니다.

  • 포괄성: LightRAG는 더 넓은 범위의 머신러닝 지표를 다루어, 정확한 개체/관계 추출 및 LLM 프로파일링을 통한 정보 발견 능력을 보여주었습니다.
  • 다양성 및 역량 강화: LightRAG는 더 다양한 정보를 제공할 뿐만 아니라, 독자에게 더 유용한(empowering) 콘텐츠를 제공했습니다. 이는 저수준 검색을 통한 관련 개체의 심층 탐색(역량 강화)과 고수준 검색을 통한 광범위한 탐색(다양성 향상)을 결합한 계층적(이중 레벨) 검색 패러다임 덕분입니다.

4.5 Model Cost and Adaptability Analysis (RQ4: 모델 비용 및 적응성 분석)

LightRAG와 최고 성능 기준 모델인 GraphRAG의 비용을 인덱싱/검색 과정 및 동적 환경에서의 데이터 변경 처리 관점에서 토큰 수와 API 호출 수를 비교했습니다(Figure 2).

  • 검색 단계 비용:
    • GraphRAG: 높은 비용 발생. 커뮤니티 보고서(community report) 생성 및 조회에 많은 토큰(예: 61만 토큰)과 각 커뮤니티를 개별적으로 순회해야 하므로 수백 번의 API 호출이 필요합니다.
    • LightRAG: 매우 낮은 비용. 키워드 생성 및 검색에 100개 미만의 토큰을 사용하고 전체 프로세스에 단 한 번의 API 호출만 필요합니다. 이는 그래프 구조와 벡터화된 표현을 매끄럽게 통합하여 대량의 정보를 미리 처리할 필요 없이 효율적으로 정보를 검색하기 때문입니다.
  • 증분 데이터 업데이트 단계 비용:
    • 개체/관계 추출 오버헤드는 두 모델이 유사합니다.
    • GraphRAG: 새로 추가된 데이터 관리에 매우 비효율적입니다. 새로운 데이터셋이 추가되면 기존 커뮤니티 구조를 해체하고 새로운 개체/관계를 통합한 후 전체를 다시 생성해야 합니다. 이는 막대한 토큰 비용(예: 약 1,399 × 2 × 5,000 토큰)을 발생시킵니다.
    • LightRAG: 새로 추출된 개체와 관계를 전체 재구성 없이 기존 그래프에 원활하게 통합합니다. 따라서 증분 업데이트 중 오버헤드가 훨씬 낮아 효율성과 비용 효율성 면에서 우수함을 보여줍니다.

5. RELATED WORK

5.1 Retrieval-Augmented Generation with LLMs (LLM을 이용한 검색 증강 생성)

  • 기존 RAG 연구: RAG 시스템은 외부 소스에서 관련 정보를 검색하여 LLM의 입력을 강화하고, 답변을 사실적이고 특정 도메인 지식에 기반하도록 합니다. 일반적인 접근 방식(Naive RAG, HyDE, RQ-RAG 등)은 쿼리를 벡터 공간에 임베딩하여 가장 가까운 컨텍스트 벡터(텍스트 청크)를 찾는 방식입니다. 하지만 이러한 방법들은 단편화된 텍스트 청크에 의존하고 상위 K개의 컨텍스트만 검색하기 때문에, 효과적인 답변에 필요한 포괄적인 전역 정보(global information)를 파악하는 데 한계가 있습니다.
  • 그래프 기반 RAG 연구: 최근 연구(GraphRAG 등)에서 지식 표현을 위해 그래프 구조를 사용하는 시도가 있었지만, 여전히 두 가지 주요 한계가 있습니다.
    1. 동적 업데이트 부족: 지식 그래프를 동적으로 업데이트하고 확장하는 기능이 부족하여 새로운 정보를 효과적으로 통합하기 어렵습니다.
    2. 비효율적인 검색: 생성된 각 커뮤니티(community)에 대해 무차별적인 검색(brute-force search)에 의존하는 경우가 많아 대규모 쿼리 처리에는 비효율적입니다.
  • LightRAG의 차별점: 제안하는 LightRAG 모델은 이러한 문제점을 해결합니다. RAG 시스템이 새로운 정보에 빠르게 적응할 수 있게 하여 모델의 최신성과 정확성을 보장하고, 제안된 이중 레벨 검색 패러다임을 통해 그래프에서 관련 정보를 신속하게 검색하여 검색 효율성과 응답 속도를 크게 향상시킵니다.

5.2 Large Language Model for Graphs (그래프를 위한 대규모 언어 모델)

  • 그래프는 복잡한 관계를 표현하는 강력한 프레임워크이며, LLM이 발전함에 따라 그래프 구조 데이터를 해석하는 LLM의 능력을 향상시키는 연구가 증가하고 있습니다. 이 연구들은 크게 세 가지 범주로 나눌 수 있습니다:
    1. GNNs as Prefix (GNN을 Prefix로 사용): 그래프 신경망(GNN)을 그래프 데이터의 초기 처리 계층으로 사용하여, LLM이 추론 중에 사용할 수 있는 구조 인식 토큰(structure-aware tokens)을 생성합니다. (예: GraphGPT, LLaGA)
    2. LLMs as Prefix (LLM을 Prefix로 사용): LLM이 텍스트 정보가 풍부한 그래프 데이터를 처리하여 노드 임베딩이나 레이블을 생성하고, 궁극적으로 GNN의 학습 과정을 개선합니다. (예: GALM, OFA)
    3. LLMs-Graphs Integration (LLM-그래프 통합): 융합 학습(fusion training), GNN 정렬(alignment)과 같은 기술을 사용하고, 그래프 정보와 직접 상호작용할 수 있는 LLM 기반 에이전트를 개발하여 LLM과 그래프 데이터 간의 원활한 상호작용을 목표로 합니다.

6. CONCLUSION

이 연구는 정보 검색의 효율성과 이해도를 모두 향상시키는 그래프 기반 인덱싱 접근 방식을 통합하여 검색 증강 생성(RAG) 기술의 발전을 소개합니다.

LightRAG는 포괄적인 지식 그래프를 활용하여 신속하고 관련성 높은 문서 검색을 가능하게 하며, 이를 통해 복잡한 쿼리에 대한 더 깊은 이해를 돕습니다. 또한, 이중 레벨 검색 패러다임은 사용자의 다양한 요구에 맞춰 구체적인 정보와 추상적인 정보를 모두 추출할 수 있게 합니다.

더욱이, LightRAG의 원활한 증분 업데이트 기능은 시스템이 새로운 정보에 대해 최신 상태를 유지하고 반응성을 갖도록 보장하여 시간이 지나도 효과를 유지하게 합니다.

전반적으로 LightRAG는 효율성과 효과성 모두에서 뛰어나며, LLM 추론 비용을 절감하면서 정보 검색 및 생성의 속도와 품질을 크게 향상시킵니다.

 


마치며...

이전 글들에서는 기본적인 Vector RAG(Naive RAG)와 관계 파악에 강점이 있는 Graph RAG를 살펴보았습니다. 오늘은 이 두 접근 방식의 장점을 결합하려는 하이브리드 RAG의 구체적인 구현체 중 하나인 LightRAG에 대해 자세히 알아보았습니다.

 

LightRAG는 기존 RAG 방식들의 아쉬운 점, 즉 평면적인 데이터 처리로 인한 정보 간의 복잡한 관계 파악의 어려움이나 새로운 정보 추가 시의 비효율성 같은 문제들을 해결하기 위해 등장했습니다. 그래프 구조를 통해 정보의 맥락과 관계를 깊이 있게 이해하고, 저수준/고수준 검색을 아우르는 이중 레벨 검색으로 사용자의 다양한 질문 의도에 맞춰 넓고도 깊은 정보 탐색을 가능하게 합니다.

특히, 증분 업데이트 기능으로 변화하는 정보 환경에 매우 빠르고 효율적으로 적응할 수 있다는 점, 그리고 GraphRAG와 비교했을 때 검색 및 업데이트 비용을 획기적으로 절감했다는 점은 정말 인상적인 부분입니다.

 

실험 결과를 통해 확인했듯이, LightRAG는 RAG 기술을 한 단계 발전시켜 더 정확하고, 빠르며, 비용 효율적인 정보 검색 및 생성을 가능하게 합니다. 게다가 이 기술이 오픈소스로 공개되었고, 벌써 15.9K의 별까지 받았더라고요. RAG를 연구하시는 분들은직접 살펴보시고 활용해 보시는 것도 좋겠습니다.

 

그럼 다음 글에서는 NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes라고, 최근 4월 15일에 공개된 Graph 기반의 RAG 논문이 있는데 해당 논문까지 리뷰해보겠습니다. 해당 논문까지 리뷰하고 시간 여유가 좀 있으면 지금까지 리뷰한 Graph based RAG 샘플 코드도 작성해서 공유드리도록 노력해보겠습니다...ㅋㅋㅋ 다음 글에서 봬요!