rag 9

[RAG] 논문 리뷰 - NodeRAG:Structuring Graph-based RAG with Heterogeneous Nodes

안녕하세요! 이전에 GraphRAG와 LightRAG에 대해 함께 살펴보았는데요, 오늘은 그 흐름을 이어 GraphRAG 분야의 또 다른 흥미로운 아이디어를 소개해 드리려고 합니다. 바로 2025년 4월 15일에 올라온 'NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes' 라는 논문인데요, 다양한 정보 유형을 각기 다른 종류의 노드로 표현하는 '이종 그래프' 구조를 체계적으로 설계하고 활용하자는 핵심 아이디어를 제시하고 있습니다. 이 아이디어를 통해 기존 모델들(GraphRAG, LightRAG)과 어떻게 다르고 어떤 점을 개선했는지 논문 리뷰를 통해 전달드리고자 합니다. 0. AbstractRAG 기술은 LLM(대규모 언어 모델)이 외부 또는..

RAG 2025.05.01

[RAG] 논문 리뷰 - LightRAG : Simple and fast retreval-augmented generation

0. ABSTRACT LightRAG은 외부 지식 기반을 통합해 대규모 언어 모델(LLM)의 성능을 향상시키는 검색 기반 생성(RAG) 시스템입니다. 기존 RAG의 한계인 단순(flat)한 데이터 표현과 부족한 맥락 이해로 인한 단편적 응답 문제를 해결하고자, LightRAG은 그래프 구조를 인덱싱 및 검색에 도입합니다.이 시스템은 다음의 주요 특징을 갖습니다:이중 검색 구조: 낮은 수준의 지식 검색과 높은 수준의 지식 검색 모두에서 포괄적인 정보 검색을 향상 시키는 이중 검색 구조를 사용하여 더 포괄적이고 정확한 응답을 제공합니다. 그래프 + 벡터 통합: 개체 간 관계와 의미 유사성을 동시에 고려하여 관련 정보의 효율적 검색을 가능하게 합니다.증분 업데이트 알고리즘: 새로운 정보를 빠르게 반영할 수 있..

RAG 2025.04.30

[RAG] Vector RAG vs Graph RAG 비교 (2)

1. LLM의 한계와 RAG의 필요성최근 LLM은 뛰어난 성능을 보여주지만, 지식의 최신성 부족, 특정 도메인 지식 부재, 그리고 부정확한 정보를 생성하는 환각(Hallucination) 현상 등의 한계를 가지고 있습니다. 이러한 문제를 해결하기 위해 RAG(검색 증강 생성) 기술이 등장했습니다. RAG는 LLM이 답변을 생성하기 전, 외부 데이터베이스나 문서에서 관련 정보를 먼저 '검색'하고, 이 정보를 바탕으로 답변을 '생성'하는 방식입니다. 이를 통해 LLM을 매번 재학습시키지 않고도 최신 정보나 특정 도메인 지식을 활용하여 답변의 정확성과 신뢰도를 높일 수 있습니다. RAG는 단순히 LLM의 약점을 보완하는 것을 넘어, AI가 정적인 학습 데이터에 의존하지 않고 실시간으로 필요한 외부 지식을 동적..

RAG 2025.04.30

[RAG] Vector RAG vs Graph RAG 비교 (1)

1. Vector RAG vs Graph RAG 개요LLM 기반의 RAG(Retrieval-Augmented Generation) 시스템을 구현하면서, 보통 Vector Store 기반의 RAG로 시작하게 됩니다. 저도 마찬가지고요. 문서를 임베딩하고, FAISS나 Chroma 같은 벡터 데이터베이스를 이용해 관련 정보를 빠르게 찾아주는 방식으로 간단하고 효과적입니다. 하지만 프로젝트가 복잡해지고 문서 간 관계성이나 구조적 연결성이 중요해질수록, 단순한 벡터 유사도 기반의 검색이 한계를 드러내기 시작했습니다. 예를 들어, "A와 관련된 B, 그리고 그로 인해 파생된 C"처럼 지식 간의 연결 고리를 파악해야 하는 경우, 벡터 기반 검색은 그 관계를 자연스럽게 드러내지 못했습니다. 간단한 챗봇 시스템을 구축..

RAG 2025.04.30

[RAG]외부 지식을 LLM에 통합하는 KBLaM - Knowledge Base Augmented Language Models

KBLaMhttps://arxiv.org/abs/2410.10450 KBLaM: Knowledge Base augmented Language ModelIn this paper, we propose Knowledge Base augmented Language Model (KBLaM), a new method for augmenting Large Language Models (LLMs) with external knowledge. KBLaM works with a knowledge base (KB) constructed from a corpus of documents, transforming each piarxiv.org 2025년 3월18일 마이크로소프트에서, LLM에 지식을 직접 주입하는 새로운 방식(..

RAG 2025.04.14

[RAG] Upstage Document Parse 리뷰 및 테스트

제가 예전에 작성한 글에 이번 글에서 언급되는 것들이 있어서 링크 함께 전달드리겠습니다. Document Layout Analysis 글https://mz-moonzoo.tistory.com/55 [Computer Vision] Document Layout Analysis (feat. OCR)1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스mz-moonzoo.tistory.com  PDFLoader 비교글https://mz-moonzoo.tistory.com/73 [RAG] Document Loader 비교 (feat. PDF, Markd..

RAG 2025.03.18

[RAG] TextSplitter 비교 및 중요성 (feat. CharacterTextSplitter, RecursiveCharacterText

0. TextSplitterRAG는 대규모 언어 모델(LLM)이 외부 지식을 사용하여 응답을 생성하는 구조입니다. 이때, 검색(retrieval) 단계에서 문서를 효율적으로 검색하기 위해 문서를 적절한 크기로 분할해야 합니다.이 때, 문서를 적절하게 분할하는 기술을 "Text Splitter"라고 합니다. 그럼 효율적인 검색을 위해 문서를 적절한 크기로 분할해야 하는 이유가 뭘까요? 0_1. 효율적인 정보 검색길이가 긴 문서를 LLM 으로 입력하게 되면 비용이 많이 발생하고, 많은 정보속에서 원하는 정보를 찾는 것을 어려워 합니다. 이러한 문제가 할루시네이션으로 이어지기도 하기 때문에 문서를 분할하는 것이 효율적입니다. 0_2. 질문-응답 정확도 향상TextSplitter가 적절히 분할한 텍스트 청크는..

RAG 2025.02.06

[RAG] Document Loader 비교 (feat. PDF, Markdown 변환)

0. Document Loader (PDF)RAG를 하려면 수 많은 Raw Data들을 파싱해야 합니다.Raw Data들 중에서도 가장 범용적으로 사용되는 파일은 PDF이기 때문에, 이번 글에서는 PDF 파일에서 한글을 추출해내는 것이 중요합니다. 아래는 Aurtorag 팀에서 한글 여러 도메인의 pdf를 가지고 한글 텍스트 추출 실험을 진행한 순위표 입니다. 아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better)  PDFMinerPDFPlumberPyPDFium2PyMuPDFPyPDF2Medical12345Law31135Finance12245Public11145Sum5571520 출처: AutoRAG Medium 블로그 1. 표가 있는 PDF 문서 PDF에서 텍스트를 추출하는..

RAG 2024.09.11

[RAG] Perplexity - AI 검색 엔진 리뷰 (feat. ChatGPT 차이점)

0. Perplexity?Perplexity는 실시간 웹 검색과 AI 기술을 결합한 대화형 검색 엔진 서비스의 이름입니다. Perplexity AI는 사용자의 질문에 대해 정확하고 최신의 정보를 제공하는 것을 목표로 합니다. 이 서비스는 다양한 AI 모델을 활용하여 검색 결과를 생성합니다.Pro 버전의 경우, 사용자가 선택할 수 있는 여러 고급 AI 모델을 제공합니다. 이 모델들은 다음과 같습니다:GPT-4oClaude-3.5 SonnetSonar LargeClaude 3 OpusSonal huge이러한 다양한 모델 중에서 사용자가 원하는 모델을 선택하여 검색을 수행할 수 있습니다. 각 모델은 고유한 특성과 성능을 가지고 있어, 사용자의 필요에 따라 적절한 모델을 선택할 수 있습니다. Perplexity..

RAG 2024.09.09