휴가를 다녀오고 나니 새로운 AI 소식이 많더라고요...ㅎㅎ 제 도메인에서 필요한 정보들 그리고 알면 도움이 될만한 정보들만 조금 추려서 정리해봤습니다. 이 외에도 알리바바에서 공개한 ASR, TTS 모델에 대한 리뷰도 있는데 이거는 논문과 함께 다음 글에서 다루도록 하겠습니다!
[2025.12.15] Google MedASR – 의료 특화 음성인식 모델 공개
구글이 의료 분야에 특화된 오픈소스 음성 인식(ASR) 모델인 MedASR을 정식 발표했습니다. 이 모델은 5,000시간 분량의 익명화된 의료 대화 및 구술 데이터를 기반으로 학습되었으며, Conformer 아키텍처를 채택하여 긴 문맥의 의료 용어 처리에 최적화되었습니다. 구글의 기술 보고서에 따르면, 기존 Whisper v3 및 Gemini Pro 기반의 음성 인식 대비 단어 오류율(WER)을 유의미한 수준으로 낮추는 데 성공했습니다.
추가 기술 정보:
- 모델 사양: 1억 5백만(105M) 파라미터 규모로, 16kHz 모노 채널 오디오 입력에 최적화되어 있습니다.
- 특화 영역: 영상 의학 판독문(Radiology Dictation)이나 복잡한 약물 명칭이 포함된 임상 대화에서 강점을 보입니다.
인사이트: 한국어가 기본 지원 언어에 포함되지 않았으며, 영어권 의료 전문 어휘(6-gram LM 내장)에 고도로 튜닝되어 있어 국내 의료 현장에 즉각 도입하기에는 제약이 있습니다.
Google Gemini 프롬프트 전략 핵심 가이드 (Google AI for Developers)
프롬프트 설계 전략 | Gemini API | Google AI for Developers
프롬프트 설계 전략 | Gemini API | Google AI for Developers
이 페이지는 Cloud Translation API를 통해 번역되었습니다. 의견 보내기 프롬프트 설계 전략 프롬프트 설계는 언어 모델에서 정확하고 고품질의 응답을 유도하는 프롬프트 또는 자연어 요청을 만드
ai.google.dev
구글이 공개한 Gemini 프롬프트 가이드는 모델의 추론 능력을 극대화하기 위한 구조적 접근법을 강조하고 있습니다.
- 구조화된 프롬프트 (Structured Prompting): XML 태그, 마크다운 등을 활용하여 지시문, 데이터, 제약 조건을 명확히 분리함으로써 모델이 입력값을 정확히 파싱하도록 유도합니다.
- Flash 전략 및 시점 명시: 지식 컷오프(Knowledge Cutoff, 2025-01 기준)와 현재 날짜를 명시적으로 제공하여, 최신 정보 처리 시 발생할 수 있는 환각(Hallucination) 현상을 억제합니다.
- 고급 사고(Advanced Reasoning): 답변 생성 전 '생각의 사슬(Chain of Thought)' 과정을 강제하거나, 자체 검토 단계를 프롬프트에 포함하여 논리적 오류를 스스로 교정하도록 설계합니다.
인사이트: 이러한 전략은 단순 질의응답을 넘어 복잡한 워크플로우를 자동화할 때 필수적입니다. 특히 '고급 사고' 기법은 추론형 모델에서 최적의 성능을 발휘하나, 로컬 LLM 환경이나 경량화 모델에서는 프롬프트 복잡도에 따라 응답 속도 및 성능 저하가 발생할 수 있어 사용 환경에 맞는 최적화가 필요합니다.
[2025.12.19] Mistral AI, 차세대 "Mistral OCR3" 솔루션 공개
Mistral AI가 발표한 새로운 OCR 솔루션(mistral-ocr3)은 기존 광학 문자 인식 기술의 한계를 넘어선 멀티모달 문서 이해 능력을 보여줍니다. 텍스트 추출뿐만 아니라 문서의 레이아웃, 도표, 수식 등의 구조적 정보를 보존하며 정형화하는 데 중점을 두었습니다.
테스트 결과 및 특징: (직접 테스트해본 결과입니다.)
- 고난이도 문서 처리: 진료비 상세 내역서 및 우편물 이미지와 같이 표와 텍스트가 혼재된 복잡한 문서에서도 헤더 인식 및 데이터 매핑 정확도가 우수합니다.
- 노이즈 처리: 흐릿한 인쇄 상태나 구겨진 우편물 이미지에서도 텍스트를 인식하고 구조화된 데이터(JSON 등)로 변환하는 성능이 확인되었습니다.
인사이트: 기존 기업용 OCR 솔루션을 여러개 테스트 해봤으나, 고난이도 문서 처리 시 할루시네이션 또는 인식 자체를 못하는 경우가 대부분이였는데, Mistral OCR3는 일부 할루시네이션 또는 오인식이 있으나 현재까지 테스트 해본 모든 OCR 솔루션 중 가장 정확하게 인식하고 있었습니다. 이는 문서의 맥락을 이해하는 LLM의 강점을 결합하였기 때문이라고 하며, 데이터 전처리 자동화 시장에 큰 영향을 줄 것으로 예상됩니다.
[2025.12.19] Alibaba “QwenLong-L1.5” – 400만 토큰 컨텍스트 모델
알리바바가 공개한 QwenLong-L1.5는 4백만(4M) 토큰의 컨텍스트 윈도우를 지원하며, GPT-5 수준의 추론 능력을 목표로 설계되었습니다.
핵심 기술:
- AEPO (Adaptive Entropy-Controlled Policy Optimization): 긴 문맥 처리 시 발생할 수 있는 집중력 저하를 막기 위해 엔트로피를 제어하는 강화 학습 기법을 적용했습니다.
- 멀티 홉 그라운딩(Multi-hop Grounding): 문서 내 분산된 정보를 연결하여 추론하는 능력이 강화되었으며, 메모리 관리 프레임워크를 통해 대용량 데이터 처리 시의 리소스 효율을 높였습니다.
인사이트: 법률 판례 분석, 특허 검토, 방대한 연구 논문 요약 등 초장문 문맥(Long-context) 이해가 필수적인 전문 분야에서 업무 프로세스를 혁신할 잠재력이 큽니다. 인간 검토자는 단순 정보 검색이 아닌, AI가 추출한 핵심 논리의 검증에 집중함으로써 업무 효율을 2~3배 이상 향상시킬 수 있을 것이라 기대하고 있습니다.
[2025.12.19 논문] MiA-RAG: 전역 맥락 인식을 통한 RAG 성능 향상
[2512.17220] Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding
Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding
Humans understand long and complex texts by relying on a holistic semantic representation of the content. This global view helps organize prior knowledge, interpret new information, and integrate evidence dispersed across a document, as revealed by the Min
arxiv.org
논문명: Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding
핵심 내용: 기존 RAG(검색 증강 생성) 시스템이 파편화된 정보(Chunk) 검색에만 의존하여 전체 맥락을 놓치는 문제를 해결하기 위해 제안된 MiA-RAG 시스템입니다.
기술적 특징:
- 전역 맥락(Global Context) 인식: 문서를 계층적으로 요약하여 '마인드스케이프(Mindscape)'라는 전역적 의미 지도를 구축합니다.
- 통합 추론: 검색(Retriever)과 생성(Generator) 단계 모두에서 이 전역 맥락을 참조하도록 하여, 지엽적인 정보가 아닌 전체 흐름에 부합하는 정확한 답변을 생성합니다.
인사이트: 긴 문서를 다루는 질의응답 시스템에서 흔히 발생하는 '맥락 소실' 문제를 구조적으로 해결하려는 시도입니다. 이는 RAG 시스템의 신뢰성을 높이고, 긴 호흡의 논리적 추론이 필요한 작업에서 LLM의 활용 범위를 넓히는 데 기여할 것입니다.
-> 해당 논문은 추후에 간단하게 리뷰하겠습니다.
[2025.12.20] Meta “Mango” & “Avocado” – 멀티모달 투트랙 전략
Meta가 2026년 상반기 출시를 목표로 개발 중인 두 가지 차세대 모델의 윤곽이 드러났습니다. 이 프로젝트는 명확한 역할 분담을 특징으로 합니다.
- Mango: 이미지 및 영상 생성에 특화된 모델로, Google의 'Nano Banana' 및 OpenAI의 'Sora' 등과 경쟁하기 위해 시각적 일관성과 물리학적 정확도를 높이는 데 주력하고 있습니다.
- Avocado: 텍스트 및 코딩 성능을 강화한 LLM으로, 기존 Llama 시리즈에서 지적되었던 복잡한 논리 추론과 코드 생성 능력을 보완합니다.
인사이트: Meta의 이러한 전략은 범용 모델 하나로 모든 것을 해결하기보다, 각 모달리티(시각, 언어)에 최적화된 전문 모델을 통해 시장 지배력을 유지하려는 의도로 해석됩니다. 이는 향후 멀티모달 AI 서비스 개발자들에게 더 정교한 선택지를 제공할 것입니다.
[2025.12.20] Firecrawl Agent – 자연어 기반 웹 데이터 수집 자동화
"피부과 시술 관련된 가격 정보 데이터가 필요해"라는 자연어 명령만으로 웹을 탐색하고 데이터를 수집하는 Firecrawl Agent의 기능이 고도화되었습니다.
주요 업데이트:
- 동적 웹사이트 대응: JavaScript로 렌더링되는 복잡한 구조의 최신 웹사이트에서도 안정적으로 데이터를 추출합니다.
- 포맷 변환: 수집된 비정형 데이터를 LLM 학습에 최적화된 Markdown이나 구조화된 JSON 형태로 즉시 변환하여 제공합니다.
인사이트: API가 제공되지 않는 웹 서비스의 데이터를 수집해야 하는 경우, 기존의 복잡한 크롤링 스크립트 작성 과정을 생략할 수 있습니다. 이는 데이터셋 구축(Data Curation) 및 레이블링에 소요되는 리소스를 획기적으로 절감시켜, AI 연구 및 프로덕션 파이프라인의 경량화에 기여할 것입니다.
[2025.12.20] NotebookLM 업데이트 – Data Tables 기능
구글 NotebookLM에 추가된 Data Tables 기능은 파편화된 문서 정보를 구조화된 표 형태로 자동 정리해줍니다. 사용자는 클릭 한 번으로 생성된 표를 Google Docs나 Sheets로 내보낼 수 있습니다.
인사이트: 수십 개의 PDF나 문서 파일에 흩어진 수치 및 통계 데이터를 하나의 표로 통합하는 작업은 연구자들에게 가장 번거로운 과정 중 하나였습니다. 이 기능은 단순한 요약을 넘어 '지식의 구조화'를 자동화했다는 점에서 리서치 업무의 생산성을 즉각적으로 높여줄 도구입니다.
'AI Tech' 카테고리의 다른 글
| [AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 2편: 완벽한 통제 장치 (Hook & Andrej Karpathy - CLAUDE.md) (1) | 2026.03.12 |
|---|---|
| [AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 1편: 기본 문법과 컨텍스트 관리 (0) | 2026.03.12 |
| [AI Tech] NVIDIA CUDA 13.1 + CUDA Tile (Python) 공개 (0) | 2025.12.08 |
| [AI] 딥시크 이후, 2025년 1~2월 최신 LLM 이슈 요약 (Gemini, DeepSeek, ChatGPT, Qwen) (0) | 2025.02.05 |
| [AI] DeepSeek R1 vs ChatGPT o1 비교 (0) | 2025.02.05 |