LLM 22

[AI Agent] Hermes Agent v0.8.0 & v0.7.0 업데이트 요약 (Feat. Karpathy LLM Wiki)

최근 저희 사내 모든 부서(AI, 마케팅, 경영지원, 영업팀 등)가 공통으로 활용할 수 있는 업무 자동화 및 공유 지식 베이스 구축하고 있습니다. 로컬 LLM과 사내 메신저, 그리고 Hermes Agent를 결합해 각 부서별 업무 자동화 및 도메인 지식을 유기적으로 연결하는 것이 핵심입니다. 개인적으로 Andrej Karpathy의 'LLM Wiki' 아이디어를 차용해 VectorDB + GraphDB + Wiki를 결합하여 정보를 탐색하고 추론하는 에이전트를 개발하던 중이었는데요. 이번 Hermes Agent v0.8.0 업데이트에 'LLM Wiki Skills'가 공식적으로 추가되었길래 문서가 많지 않은 사내에서는 Wiki만으로도 어느정도 지식 베이스를 구축할 수 있을 것 같아서 적용해보려합니다. ..

AI Tech/AI Agent 2026.04.09

[LLM] 로컬 vLLM Gemma 4 서빙 팁 (feat. Docker 기반 세팅 가이드)

Gemma 4가 성능이 좋다고 입소문 타면서 개인적으로 문의해주시는 분들이 많으시더라고요. 그래서 간단하게 vLLM과 도커로 Gemma4 서빙하는 방법 알려드리고자 왔습니다.1. 왜 vLLM v0.19.0이어야 하는가1-1. Gemma 4 아키텍처 정식 지원은 v0.19.0이 최초Gemma 4는 기존 Gemma 시리즈와 아키텍처가 크게 달라졌습니다. MoE(128개 fine-grained experts, top-8 routing), Dual Attention(슬라이딩 윈도우 로컬 + 글로벌 어텐션 교차 배치, head dimension 256/512 이종 구성), 네이티브 멀티모달(텍스트/이미지/오디오) 등이 새로 도입되었습니다. vLLM은 이러한 Gemma4를 지원하기 위해 발빠르게 움직여서 vllm/..

DL/LLM 2026.04.08

[AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 2편: 완벽한 통제 장치 (Hook & Andrej Karpathy - CLAUDE.md)

지난 1편에서는 클로드 코드의 기본적인 입력 방식과 대화의 품질을 유지하기 위한 컨텍스트 관리 방법을 살펴보았습니다. 이번 2편에서는 AI가 개발자의 의도를 벗어나 시스템을 망가뜨리거나 불필요한 코드를 양산하는 것을 방지하기 위한 물리적/논리적 통제 장치 설정법을 공유합니다. 터미널 권한을 가진 AI 에이전트는 매우 편리하지만, 통제되지 않으면 치명적인 사고(중요 파일 삭제, 환경 설정 파괴 등)를 일으킬 수 있습니다. 이를 막기 위한 두 가지 핵심 방어선이 바로 Hook(훅)과 CLAUDE.md 파일입니다.1. 물리적 방어선: PreToolUse 훅(Hook)으로 파일 삭제 원천 차단프롬프트나 CLAUDE.md에 "파일을 삭제하지 마세요"라고 적어두는 것만으로는 부족합니다. LLM은 지시사항을 무시하거..

AI Tech 2026.03.12

[LLM] 프롬프트 엔지니어링: NotebookLM을 활용한 실전팁 (feat. 구글 프롬프트 가이드 등)

생성형 AI 기술이 발전함에 따라 프롬프트 엔지니어링(Prompt Engineering)의 중요성이 커지고 있습니다. 이는 단순히 AI에게 질문을 던지는 행위를 넘어, AI 모델로부터 원하는 최적의 결과를 도출하기 위해 입력을 설계하는 기술적인 과정입니다. 오늘은 LLM(거대 언어 모델) 엔지니어의 관점에서 프롬프트 엔지니어링이 왜 중요한지, 그리고 효과적인 프롬프트를 구성하기 위한 프롬프트 작성이 익숙하지 않으신 분들을 위한 꿀팁까지 작성해보겠습니다.1. 왜 프롬프트 엔지니어링인가? (LLM 엔지니어의 관점)많은 분들이 프롬프트 엔지니어링을 단순히 챗봇과 대화하는 요령 정도로 생각하지만, 실제 개발 현장, 특히 모델을 직접 다루는 엔지니어에게는 매우 핵심적인 역량입니다.답변 품질의 결정적 변수: 동일한..

DL/LLM 2026.02.06

[NLP] 트랜스포머 아키텍처의 분화: Encoder·Decoder 기반 LLM 구조 정리 (feat. BERT, GPT, BART, T5)

최신 기술의 발전 속도가 워낙 빠르다 보니 시기를 조금 놓친 감은 있지만, 예전에 정리해두었던 내용을 그대로 두기는 아쉬워서 간단하게 요약해서 공유하고자 합니다. 자세한 내용들이 궁금하시면 위키독스 같은 곳에서 찾아보시면 좋습니다. LLM의 근간이 되는 트랜스포머(Transformer) 아키텍처가 목적에 따라 어떻게 분화되었는지, 그리고 현재 RAG(검색 증강 생성) 시스템에서는 이 모델들이 어떤 역할을 하고 있는지 정리해 보았습니다. 기초적인 내용이지만, NLP(자연어 처리)의 흐름을 이해하는 데 도움이 되기를 바랍니다. 1. 트랜스포머 아키텍처의 분화2017년 구글이 'Attention Is All You Need' 논문을 통해 트랜스포머(Transformer) 모델을 발표한 이후, NLP 모델은 사..

DL/NLP 2026.02.05

[Voice] Qwen3-ASR Technical Report 리뷰 : 차세대 음성 인식 및 강제 정렬 모델

안녕하세요. 오늘은 최근 공개된 Qwen3-ASR Technical Report의 주요 내용을 정리해 보려 합니다.이번 보고서에서 소개된 Qwen3-ASR 제품군은 두 가지 크기의 올인원 음성 인식(ASR) 모델과 새로운 방식의 강제 정렬(Forced Alignment) 모델을 포함하고 있습니다. 특히 Qwen3-Omni를 기초 모델로 사용하여 기존 모델들보다 더욱 뛰어난 오디오 이해력을 보여준다는 점이 인상적입니다. 본격적인 섹션별 리뷰에 앞서, 이번 보고서의 핵심 요약(Abstract)을 바탕으로 전체적인 개요를 먼저 살펴보겠습니다. 이번에 공개된 모델 라인업은 크게 세 가지로 나뉩니다.Qwen3-ASR-1.7B: 오픈소스 모델 중 SOTA(State-of-the-art) 성능을 기록하며, 상용 AP..

DL/Voice 2026.02.02

[LLM] Ministral 3 논문 리뷰 (Cascade Distillation)

2025년 12월, Ministral 3 Family (3B/8B/14B)가 공개되었습니다. 공개 직후 테스트를 해보았는데, 비슷한 파라미터를 가진 Qwen이나 Gemma 모델과 비교하여 성능이 준수할 뿐만 아니라, 무엇보다 토큰 생성 속도가 월등히 빠르다는 점이 인상적이었습니다. 만족스럽게 사용하던 중, 2026년 1월 13일에 해당 모델의 기술적 배경을 담은 Ministral 3 논문이 공개되어 리뷰해 보고자 합니다. 이 글에서는 단순한 스펙 나열을 넘어, 이 모델이 적은 데이터(1~3T 토큰)로 고성능을 낼 수 있었던 핵심 메커니즘인 Cascade Distillation(계단식 증류)과 Pruning(가지치기) 기법, 그리고 Teacher Model 선정에 대한 흥미로운 실험 결과를 중심으로 분석합..

DL/LLM 2026.01.14

[Voice] Fun-ASR Technical Report 리뷰 및 테스트 (feat. whisper)

이번 글에서는 12월19일에 공개된 Fun-ASR-nano 모델에 대한 기술 리포트를 리뷰해보고자 합니다.Fun-ASR(7.7B)은 높은 인식 정확도를 목표로 0.7B개의 파라미터를 가진 오디오 인코더와 7B개의 파라미터를 가진 LLM 기반 디코더로 구성됩니다. Fun-ASR-nano(0.8B)는 낮은 계산 리소스 시나리오의 요구 사항을 충족하기 위해 정확도와 효율성 간의 균형을 맞추고자 0.2B개의 파라미터를 가진 오디오 인코더와 0.6B개의 파라미터를 가진 LLM 기반 디코더로 구성됩니다. 제가 관심있게 보는 부분은 "실시간 처리가 가능한 수준인가?"입니다. 기존의 오픈소스 ASR 모델 중 가장 빠른 솔루션은 OpenAI의 Whisper-large-v3-turbo 베이스의 Faster-whisper-..

DL/Voice 2026.01.05

[LLM] 업스테이지 Solar-Open-100B 모델 GLM-4.5-Air 표절 의혹, 공개 검증 세션 핵심 요약 정리

2026년 1월1일 현재 AI 업계에서 큰 이슈가 되었던 업스테이지의 Solar 모델 표절 의혹과 관련하여, 회사 측이 진행한 공개 검증 세션의 내용을 정리해 보았습니다.제보자 측에서 제기한 의혹(GLM 모델 파생 여부 등)에 대해 업스테이지가 기술적으로 어떻게 반박했는지 공개 검증 세션 내용을 들으면서 정리해봤습니다. 저도 잘못 요약한 부분이 있을..수는 있습니다. 설명을 정말 잘해주셔서 도움이 되는 부분이 많으니 직접 들어보셨으면 좋겠습니다. https://www.youtube.com/live/2YY9aAUSo_w 1. Solar 100B는 'From Scratch' 모델인가?결론부터 말하면, 이번에 공개한 Solar 100B는 랜덤 가중치 초기화 후 직접 학습을 진행한 From Scratch 모델이..

DL/LLM 2026.01.02

[LLM] 논문 리뷰 - LLM 강화학습 파인튜닝에서 BF16보다 FP16이 더 우수한 성능을 보일 수 있는 이유.

https://arxiv.org/abs/2510.26788 Defeating the Training-Inference Mismatch via FP16Reinforcement learning (RL) fine-tuning of large language models (LLMs) often suffers from instability due to the numerical mismatch between the training and inference policies. While prior work has attempted to mitigate this issue through algorithmic corrarxiv.org 1. 개요: Defeating the Training-Inference Mismatch..

DL/LLM 2026.01.01