0. Document Loader (PDF)RAG를 하려면 수 많은 Raw Data들을 파싱해야 합니다.Raw Data들 중에서도 가장 범용적으로 사용되는 파일은 PDF이기 때문에, 이번 글에서는 PDF 파일에서 한글을 추출해내는 것이 중요합니다. 아래는 Aurtorag 팀에서 한글 여러 도메인의 pdf를 가지고 한글 텍스트 추출 실험을 진행한 순위표 입니다. 아래 표기된 숫자는 등수를 나타냅니다. (The lower, the better) PDFMinerPDFPlumberPyPDFium2PyMuPDFPyPDF2Medical12345Law31135Finance12245Public11145Sum5571520 출처: AutoRAG Medium 블로그 1. 표가 있는 PDF 문서 PDF에서 텍스트를 추출하는..