RAG 6

[RAG]외부 지식을 LLM에 통합하는 KBLaM - Knowledge Base Augmented Language Models

KBLaMhttps://arxiv.org/abs/2410.10450 KBLaM: Knowledge Base augmented Language ModelIn this paper, we propose Knowledge Base augmented Language Model (KBLaM), a new method for augmenting Large Language Models (LLMs) with external knowledge. KBLaM works with a knowledge base (KB) constructed from a corpus of documents, transforming each piarxiv.org  2025년 3월18일 마이크로소프트에서, LLM에 지식을 직접 주입하는 새로운 방식(..

RAG 02:32:44

[RAG] Upstage Document Parse 리뷰 및 테스트

제가 예전에 작성한 글에 이번 글에서 언급되는 것들이 있어서 링크 함께 전달드리겠습니다. Document Layout Analysis 글https://mz-moonzoo.tistory.com/55 [Computer Vision] Document Layout Analysis (feat. OCR)1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스mz-moonzoo.tistory.com  PDFLoader 비교글https://mz-moonzoo.tistory.com/73 [RAG] Document Loader 비교 (feat. PDF, Markd..

RAG 2025.03.18

[RAG] TextSplitter 비교 및 중요성 (feat. CharacterTextSplitter, RecursiveCharacterText

0. TextSplitterRAG는 대규모 언어 모델(LLM)이 외부 지식을 사용하여 응답을 생성하는 구조입니다. 이때, 검색(retrieval) 단계에서 문서를 효율적으로 검색하기 위해 문서를 적절한 크기로 분할해야 합니다.이 때, 문서를 적절하게 분할하는 기술을 "Text Splitter"라고 합니다. 그럼 효율적인 검색을 위해 문서를 적절한 크기로 분할해야 하는 이유가 뭘까요? 0_1. 효율적인 정보 검색길이가 긴 문서를 LLM 으로 입력하게 되면 비용이 많이 발생하고, 많은 정보속에서 원하는 정보를 찾는 것을 어려워 합니다. 이러한 문제가 할루시네이션으로 이어지기도 하기 때문에 문서를 분할하는 것이 효율적입니다. 0_2. 질문-응답 정확도 향상TextSplitter가 적절히 분할한 텍스트 청크는..

RAG 2025.02.06

[RAG] Document Loader 비교 (feat. PDF, Markdown 변환)

0. Document Loader (PDF)RAG를 하려면 수 많은 Raw Data들을 파싱해야 합니다.Raw Data들 중에서도 가장 범용적으로 사용되는 파일은 PDF이기 때문에, 이번 글에서는 PDF 파일에서 한글을 추출해내는 것이 중요합니다. 아래는 Aurtorag 팀에서 한글 여러 도메인의 pdf를 가지고 한글 텍스트 추출 실험을 진행한 순위표 입니다. 아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better)  PDFMinerPDFPlumberPyPDFium2PyMuPDFPyPDF2Medical12345Law31135Finance12245Public11145Sum5571520 출처: AutoRAG Medium 블로그 1. 표가 있는 PDF 문서 PDF에서 텍스트를 추출하는..

RAG 2024.09.11

[RAG] Llama 3.1 프롬프트 형식

0. 프롬프트란?프롬프트는 사용자가 모델에 원하는 답을 이끌어내기 위해 작성하는 질문이나 명령문입니다.프롬프트를 어떻게 작성하느냐에 따라 LLM이 생성하는 답변이 달라지고, 정확도 역시 크게 차이납니다.1. Base RAG Prompt기본적으로 RAG 프로세스에 사용하는 프롬프트는 다음과 같습니다. 이를 통해 ChatGPT, Claude, Llama 등 다양한 LLM을 사용해 Question을 통해 Context를 검색하고 Context 내에서 Answer를 생성하는 RAG 프로세스로 유도할 수 있습니다.  rlm/rag-prompt You are an assistant for question-answering tasks. Use the following pieces of retrieved context..

RAG 2024.09.09

[RAG] Perplexity - AI 검색 엔진 리뷰 (feat. ChatGPT 차이점)

0. Perplexity?Perplexity는 실시간 웹 검색과 AI 기술을 결합한 대화형 검색 엔진 서비스의 이름입니다. Perplexity AI는 사용자의 질문에 대해 정확하고 최신의 정보를 제공하는 것을 목표로 합니다. 이 서비스는 다양한 AI 모델을 활용하여 검색 결과를 생성합니다.Pro 버전의 경우, 사용자가 선택할 수 있는 여러 고급 AI 모델을 제공합니다. 이 모델들은 다음과 같습니다:GPT-4oClaude-3.5 SonnetSonar LargeClaude 3 OpusSonal huge이러한 다양한 모델 중에서 사용자가 원하는 모델을 선택하여 검색을 수행할 수 있습니다. 각 모델은 고유한 특성과 성능을 가지고 있어, 사용자의 필요에 따라 적절한 모델을 선택할 수 있습니다. Perplexity..

RAG 2024.09.09