분류 전체보기 85

[LLM] Google Prompt Engineering Whiterpapers - 구글 프롬프트 엔지니어링 백서 요약

Google에서 API 사용자를 중심으로 프롬프트 엔지니어링 에 초점을 맞춘 68페이지 분량의 백서를 최근 공개했는데 , 구조, 형식, 구성 설정, 그리고 실제 사례에 대해 심도 있게 다루고 있습니다. 여러번 수정하여 최신 버전을 공개한 것 같네요. 이미 프롬프트 엔지니어링에 대한 지식을 갖고 있고, 경험도 많으신 분들은 가볍게 읽고 넘어가셔도 도움이 될 듯합니다.LLM에 대해 처음부터 공부해보시거나, 프롬프트 엔지니어링에 관심이 있으신 분들은 기본적으로 읽고 시작하시면 좋을 것 같습니다. 저도 일부 처음보는 방법도 있어서 도움이 조금 될 듯하네요! 자료 링크 같이 첨부드립니다.https://drive.google.com/file/d/1AbaBYbEa_EbPelsT40-vj64L-2IwUJHy/view ..

DL/LLM 11:33:23

[RAG]외부 지식을 LLM에 통합하는 KBLaM - Knowledge Base Augmented Language Models

KBLaMhttps://arxiv.org/abs/2410.10450 KBLaM: Knowledge Base augmented Language ModelIn this paper, we propose Knowledge Base augmented Language Model (KBLaM), a new method for augmenting Large Language Models (LLMs) with external knowledge. KBLaM works with a knowledge base (KB) constructed from a corpus of documents, transforming each piarxiv.org  2025년 3월18일 마이크로소프트에서, LLM에 지식을 직접 주입하는 새로운 방식(..

RAG 02:32:44

[RAG] Upstage Document Parse 리뷰 및 테스트

제가 예전에 작성한 글에 이번 글에서 언급되는 것들이 있어서 링크 함께 전달드리겠습니다. Document Layout Analysis 글https://mz-moonzoo.tistory.com/55 [Computer Vision] Document Layout Analysis (feat. OCR)1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스mz-moonzoo.tistory.com  PDFLoader 비교글https://mz-moonzoo.tistory.com/73 [RAG] Document Loader 비교 (feat. PDF, Markd..

RAG 2025.03.18

[RAG] TextSplitter 비교 및 중요성 (feat. CharacterTextSplitter, RecursiveCharacterText

0. TextSplitterRAG는 대규모 언어 모델(LLM)이 외부 지식을 사용하여 응답을 생성하는 구조입니다. 이때, 검색(retrieval) 단계에서 문서를 효율적으로 검색하기 위해 문서를 적절한 크기로 분할해야 합니다.이 때, 문서를 적절하게 분할하는 기술을 "Text Splitter"라고 합니다. 그럼 효율적인 검색을 위해 문서를 적절한 크기로 분할해야 하는 이유가 뭘까요? 0_1. 효율적인 정보 검색길이가 긴 문서를 LLM 으로 입력하게 되면 비용이 많이 발생하고, 많은 정보속에서 원하는 정보를 찾는 것을 어려워 합니다. 이러한 문제가 할루시네이션으로 이어지기도 하기 때문에 문서를 분할하는 것이 효율적입니다. 0_2. 질문-응답 정확도 향상TextSplitter가 적절히 분할한 텍스트 청크는..

RAG 2025.02.06

[Environment] NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver 에러 해결 방법

상황 테스트 환경으로 Titan XP가 달린 우분투 서버를 사용하고 있는데, 이 서버에서는 드라이버 문제가 종종 발생해서 nvidia-smi를 입력하면 "NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver." 에러가 출력됩니다. 오류 발생 원인해당 에러는 nvidia 드라이버를 사용하는 딥러닝 프로세스를 종료하지 않은 채로 서버의 전원이 꺼지거나 시스템 종료하는 경우에 많이 발생한다고 하더라구요. 그랬었나 싶기도하고...ㅋㅋㅋ 이외에도 다음과 같은 문제로 인해 발생할 수도 있습니다.드라이버 미설치 또는 손상: NVIDIA 드라이버가 시스템에 설치되지 않았거나 손상.드라이버 버전 불일치: 설치된 드라이버 버전이 현재 사용..

Environment 2025.02.05

[AI] 딥시크 이후, 2025년 1~2월 최신 LLM 이슈 요약 (Gemini, DeepSeek, ChatGPT, Qwen)

개요 딥시크(DeepSeek) R1 모델은 최근 인공지능 업계에 큰 파장을 일으킨 AI 모델입니다. 기존 모델 대비 90~95%의 비용 절감과 뛰어난 추론 능력을 자랑하며, 특히 저가 저사양 GPU를 사용하여 오픈AI의 GPT-3와 유사한 성능을 달성했다는 점에서 주목받고 있습니다. 딥시크는 600만 달러 미만의 비용을 써서 수십억 달러를 사용한 오픈AI에 필적하는 모델을 냈다는 분석에 AI업계에 비상이 걸렸습니다.이에 OpenAI, Qwen 여러 기업들이 급격하게 새로운 모델과 기능을 공개하고 있습니다.트렌드 팔로잉을 하면서 직접 찾은 1 ~ 2월 사이에 LLM 관련 이슈를 간단하게 정리해봤습니다.  Issue1. Google - [Gemini] 2024/12/11Gemini 1.5 pro Deep R..

AI Tech 2025.02.05

[AI] DeepSeek R1 vs ChatGPT o1 비교

ChatGPT o1 vs DeepSeek R1DeepSeek R1 모델이 ChatGPT o1 모델보다 월등히 적은 비용으로 유사한 성능을 보여 이슈가 되고 있습니다.그렇다면 두 모델은 어떠한 차이가 있는지 DeepSeek를 기준으로 비교 해보겠습니다. DeepSeek 모델의 자세한 아키텍처와 학습 방식은 추후에 V3, R1 논문 리뷰 글을 작성하도록 하겠습니다. 1. 모델 아키텍처ChatGPT o1구조 : 기본적으로 Transformer 아키텍처를 사용하며, 다중 헤드 어텐션과 은닉층을 통해 복잡한 문맥 관계를 모델링합니다.추론 비공개 : 내부적으로 체인-오브-쏘트(chain-of-thought) 방식이 적용되지만, 사용자에게는 그 과정을 숨기는 방식으로 설계되어 있어 최종 답변만 제공됩니다.DeepSe..

AI Tech 2025.02.05

[AI] 오픈소스 모델 DeepSeek R1 요약

DeepSeek R1?1. 개요DeepSeek R1은 2025년 1월 20일 정식 출시된 모델로, DeepSeek의 전신인 DeepSeek-V3를 기반으로 하여 강화학습(RL)과 감독 미세 조정(SFT)을 결합한 혁신적 학습 방법을 적용해 개발되었습니다. 특히 ‘체인 오브 쏘트(Chain-of-Thought)’ 기법을 통해 사용자가 질의를 주면 모델이 내부 추론 과정을 단계별로 공개하며 문제 해결 능력을 향상시킵니다. 2. 효율성 및 오픈소스 DeepSeek R1은 약 600만 달러의 비교적 적은 비용으로 개발되었으며, 이는 OpenAI의 수억 달러에 달하는 투자 대비 월등한 비용 효율성을 보여줍니다. 또한, MIT 라이선스 하에 오픈소스로 공개되어 누구나 자유롭게 사용·수정할 수 있어 개발자 커뮤니티 ..

AI Tech 2025.02.03

[DL] RNN - Recurrent Neural Networks 이론 정리

0. RNN (Recurrent Neural Network) RNN(Recurrent Neural Network)은 시간적으로 순차적인 데이터를 처리할 수 있도록 설계된 인공신경망으로, 과거 정보를 현재의 계산에 활용할 수 있는 순환 구조를 가진 모델입니다. 시간에 따라 동일한 가중치를 공유하는 것이 특징이라고 할 수도 있습니다. 이러한 특징은 시계열 데이터, 자연어 처리(NLP), 음성 인식, 주가 예측 등 순서와 맥락이 중요한 데이터 처리에서 강점을 보입니다. 1. First-order System과 RNN의 유사성First-order system은 시스템 동역학(dynamics)을 기술할 때 사용되는 수학적 모델로, 시스템의 현재 상태가 이전 상태와 현재 입력에 의해 결정되는 구조를 가집니다. 주로..

DL 2024.12.10

[Voice] 실시간 STT 연구를 위한 선행 지식과 학습 로드맵 (feat. Whisper)

0. 개요"실시간 STT" Real time STT 또는 Streaming STT 라고도 불립니다. "[Voice] 실시간 STT 연구를 위한 선행 지식과 학습 로드맵" 에서는 지금까지 실시간 STT를 구현하기 위해 필요한 여러 선행 연구와 개념들을 순차적으로 정리하고자 합니다.1. OpenAI/Whisper 실시간 STT에 적합하지 않다.현재 ASR 분야에서 가장 성능이 뛰어나다고 알려진 모델은 OpenAI의 "Whisper"입니다.Whisper는 CNN과 트랜스포머를 결합한 구조를 가지고 있습니다. 이러한 구조를 가진 Whisper를 일반적으로 적용 가능한 모델로 훈련하기 위해 OpenAI는 다양한 환경과 녹음 설정, 화자, 언어를 포함한 680,000 시간 이상의 레이블 데이터를 수집했습니다. 이를..

DL/Voice 2024.12.03