RAG 3

[RAG] Document Loader 비교 (feat. PDF, Markdown 변환)

0. Document Loader (PDF)RAG를 하려면 수 많은 Raw Data들을 파싱해야 합니다.Raw Data들 중에서도 가장 범용적으로 사용되는 파일은 PDF이기 때문에, 이번 글에서는 PDF 파일에서 한글을 추출해내는 것이 중요합니다. 아래는 Aurtorag 팀에서 한글 여러 도메인의 pdf를 가지고 한글 텍스트 추출 실험을 진행한 순위표 입니다. 아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better)  PDFMinerPDFPlumberPyPDFium2PyMuPDFPyPDF2Medical12345Law31135Finance12245Public11145Sum5571520 출처: AutoRAG Medium 블로그 1. 표가 있는 PDF 문서 PDF에서 텍스트를 추출하는..

RAG 2024.09.11

[RAG] Llama 3.1 프롬프트 형식

0. 프롬프트란?프롬프트는 사용자가 모델에 원하는 답을 이끌어내기 위해 작성하는 질문이나 명령문입니다.프롬프트를 어떻게 작성하느냐에 따라 LLM이 생성하는 답변이 달라지고, 정확도 역시 크게 차이납니다.1. Base RAG Prompt기본적으로 RAG 프로세스에 사용하는 프롬프트는 다음과 같습니다. 이를 통해 ChatGPT, Claude, Llama 등 다양한 LLM을 사용해 Question을 통해 Context를 검색하고 Context 내에서 Answer를 생성하는 RAG 프로세스로 유도할 수 있습니다.  rlm/rag-prompt You are an assistant for question-answering tasks. Use the following pieces of retrieved context..

RAG 2024.09.09

[RAG] Perplexity - AI 검색 엔진 리뷰 (feat. ChatGPT 차이점)

0. Perplexity?Perplexity는 실시간 웹 검색과 AI 기술을 결합한 대화형 검색 엔진 서비스의 이름입니다. Perplexity AI는 사용자의 질문에 대해 정확하고 최신의 정보를 제공하는 것을 목표로 합니다. 이 서비스는 다양한 AI 모델을 활용하여 검색 결과를 생성합니다.Pro 버전의 경우, 사용자가 선택할 수 있는 여러 고급 AI 모델을 제공합니다. 이 모델들은 다음과 같습니다:GPT-4oClaude-3.5 SonnetSonar LargeClaude 3 OpusSonal huge이러한 다양한 모델 중에서 사용자가 원하는 모델을 선택하여 검색을 수행할 수 있습니다. 각 모델은 고유한 특성과 성능을 가지고 있어, 사용자의 필요에 따라 적절한 모델을 선택할 수 있습니다. Perplexity..

RAG 2024.09.09