ChatGPT 12

[Voice] Cohere의 오픈소스 음성 인식 모델 cohere-transcribe-03-2026 리뷰

안녕하세요. 오늘은 Cohere Labs에서 2026년 3월에 새롭게 발표한 음성 인식(ASR) 모델인 'cohere-transcribe-03-2026'에 대해 상세히 알아보겠습니다. 이 모델은 기업 환경에서 필수적으로 요구되는 14개 언어(한국어 포함)를 지원하며, 높은 정확도와 추론 효율성을 목표로 처음부터 새롭게 학습된 20억(2B) 파라미터 규모의 모델입니다. 현재 허깅페이스(Hugging Face)를 통해 Apache 2.0 라이선스로 공개되어 누구나 상업적, 비상업적 목적으로 활용할 수 있습니다.이번 포스팅에서는 테크 블로그에 설명 되어 있는 해당 모델의 주요 특징, 아키텍처 구조, 학습 데이터, 실제 성능 지표, 그리고 vLLM을 활용한 프로덕션 최적화 내용까지 구체적으로 살펴보겠습니다. 1..

DL/Voice 2026.03.30

[AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 4편: 외부 도구 연동 II - 리눅스 서버에서 NotebookLM 연동

4편에서는 클로드 코드 확장의 고도화된 사례로, 구글의 NotebookLM을 리눅스 원격 서버(Headless) 환경에서 클로드 코드 스킬(Skill)로 연동하는 방법을 다룹니다. 연구나 개발 목적으로 GPU 서버를 활용할 때, GUI(화면)가 없는 환경적 제약 때문에 인증(Authentication) 단계에서 막히는 경우가 많습니다. 이번 글에서는 이 문제를 우회하고 NotebookLM의 숨겨진 API 기능들을 100% 활용하는 세팅 과정을 안내합니다.0. 사용하기 전에...실제 깃허브 리포지토리에 보면 다음과 같이 안내하고 있습니다. ⚠️비공식 라이브러리 - 사용 시 발생하는 모든 위험은 사용자 본인이 감수해야 합니다.이 라이브러리는 예고 없이 변경될 수 있는, 공식 문서에 포함되지 않은 Google..

AI Tech 2026.03.12

[AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 3편: 외부 도구 연동 I - AlphaXiv 논문 리뷰 스킬(Skill) 만들기

지난 2편에서는 훅(Hook)과 CLAUDE.md를 활용해 AI의 돌발 행동을 통제하는 방법을 알아보았습니다. 이번 3편에서는 클로드 코드의 가장 강력한 확장 기능 중 하나인 스킬(Skill)을 직접 만들고 적용하는 방법을 다룹니다. 첫 번째 활용 사례로, 연구 및 개발 과정에서 필수적인 논문 리뷰 자동화 스킬을 세팅해보겠습니다. 이 글을 보고 각자 작업에 필요하신 Skill을 세팅하시면 됩니다.1. 왜 AlphaXiv 논문 리뷰 스킬이 필요한가?일반적으로 AI에게 논문을 리뷰시킬 때 PDF 원문을 통째로 파싱(Parsing)하는 방식을 많이 사용합니다. 하지만 이 방식에는 치명적인 단점이 있습니다. PDF 파일 내의 복잡한 수식이나 표가 깨지면서 AI가 잘못된 정보를 학습하고 전달하는 병목 현상이 발생..

AI Tech 2026.03.12

[AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 2편: 완벽한 통제 장치 (Hook & Andrej Karpathy - CLAUDE.md)

지난 1편에서는 클로드 코드의 기본적인 입력 방식과 대화의 품질을 유지하기 위한 컨텍스트 관리 방법을 살펴보았습니다. 이번 2편에서는 AI가 개발자의 의도를 벗어나 시스템을 망가뜨리거나 불필요한 코드를 양산하는 것을 방지하기 위한 물리적/논리적 통제 장치 설정법을 공유합니다. 터미널 권한을 가진 AI 에이전트는 매우 편리하지만, 통제되지 않으면 치명적인 사고(중요 파일 삭제, 환경 설정 파괴 등)를 일으킬 수 있습니다. 이를 막기 위한 두 가지 핵심 방어선이 바로 Hook(훅)과 CLAUDE.md 파일입니다.1. 물리적 방어선: PreToolUse 훅(Hook)으로 파일 삭제 원천 차단프롬프트나 CLAUDE.md에 "파일을 삭제하지 마세요"라고 적어두는 것만으로는 부족합니다. LLM은 지시사항을 무시하거..

AI Tech 2026.03.12

[AI Tech] 클로드 코드(Claude Code) 실무 활용 가이드 1편: 기본 문법과 컨텍스트 관리

터미널 환경에서 AI와 협업하는 것은 개발 생산성을 크게 높여주지만, 도구의 특성을 제대로 이해하지 못하면 엉뚱한 코드가 생성되거나 기존 작업의 맥락이 끊기는 등 오히려 비효율을 낳을 수 있습니다. 특히 복잡한 프로젝트 구조를 다루거나 엄격한 서버 환경에서 작업할 때, 클로드 코드(Claude Code)의 기능을 정확히 통제하고 활용하는 것은 매우 중요합니다. 이번 글에서는 클로드 코드를 실무에 도입할 때 가장 기본이 되면서도 핵심적인 '입력 방식'과 '컨텍스트(Context) 관리' 노하우를 정리했습니다.1. 목적에 맞는 입력 방식 활용클로드 코드는 단순히 텍스트를 입력하는 것 외에도 기호를 활용하여 지시를 명확하게 전달할 수 있습니다. 작업의 성격에 맞춰 입력 방식을 구분하면 불필요한 탐색 시간을 줄..

AI Tech 2026.03.12

[AI] DeepSeek R1 vs ChatGPT o1 비교

ChatGPT o1 vs DeepSeek R1DeepSeek R1 모델이 ChatGPT o1 모델보다 월등히 적은 비용으로 유사한 성능을 보여 이슈가 되고 있습니다.그렇다면 두 모델은 어떠한 차이가 있는지 DeepSeek를 기준으로 비교 해보겠습니다. DeepSeek 모델의 자세한 아키텍처와 학습 방식은 추후에 V3, R1 논문 리뷰 글을 작성하도록 하겠습니다. 1. 모델 아키텍처ChatGPT o1구조 : 기본적으로 Transformer 아키텍처를 사용하며, 다중 헤드 어텐션과 은닉층을 통해 복잡한 문맥 관계를 모델링합니다.추론 비공개 : 내부적으로 체인-오브-쏘트(chain-of-thought) 방식이 적용되지만, 사용자에게는 그 과정을 숨기는 방식으로 설계되어 있어 최종 답변만 제공됩니다.DeepSe..

AI Tech 2025.02.05

[AI] 오픈소스 모델 DeepSeek R1 요약

DeepSeek R1?1. 개요DeepSeek R1은 2025년 1월 20일 정식 출시된 모델로, DeepSeek의 전신인 DeepSeek-V3를 기반으로 하여 강화학습(RL)과 감독 미세 조정(SFT)을 결합한 혁신적 학습 방법을 적용해 개발되었습니다. 특히 ‘체인 오브 쏘트(Chain-of-Thought)’ 기법을 통해 사용자가 질의를 주면 모델이 내부 추론 과정을 단계별로 공개하며 문제 해결 능력을 향상시킵니다. 2. 효율성 및 오픈소스 DeepSeek R1은 약 600만 달러의 비교적 적은 비용으로 개발되었으며, 이는 OpenAI의 수억 달러에 달하는 투자 대비 월등한 비용 효율성을 보여줍니다. 또한, MIT 라이선스 하에 오픈소스로 공개되어 누구나 자유롭게 사용·수정할 수 있어 개발자 커뮤니티 ..

AI Tech 2025.02.03

Molmo 논문 리뷰 - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

0. 서론LLM은 텍스트 뿐만 아니라 이미지에 대한 설명을 생성하고, 복잡한 시각적 질문에 정확하게 답하는 것과 같은 인상적인 멀티 모달 기능을 제공하고 있습니다. 그러나, 이러한 시각 언어 모델(VLM) 중 가장 성능이 좋은 모델은 모델 Weight, data, source code가 공개되지 않은채 독점 상태로 남아 있습니다. 그러나, VLM을 처음부터 구축하는 것은 매우 어려운 일이기 때문에 저자는 LLM에 대한 학문적 탐구를 촉진하기 위해 성능이 뛰어난 공개 멀티모달 모델을 개발하고 배포하고자 하였습니다. 이에 독자적으로 개발된 비전 인코더와 언어 모델을 결합해 훈련된 오픈 모델 Molmo를 공개했습니다.  Molmo는 다른 VLM들이 사용한 합성 데이터나 폐쇄적인 데이터에 의존하지 않고, 이미지..

DL/LLM 2024.09.27

Allen Institute - Molmo 오픈소스 멀티모달

allenai/Molmohttps://huggingface.co/allenai/Molmo-7B-O-0924 allenai/Molmo-7B-O-0924 · Hugging FaceMolmo 7B-O Molmo is a family of open vision-language models developed by the Allen Institute for AI. Molmo models are trained on PixMo, a dataset of 1 million, highly-curated image-text pairs. It has state-of-the-art performance among multimodal models withuggingface.co 앨런인공지능연구소(AI2)가 9월 25일에 오픈소스 ..

DL/LLM 2024.09.27

[RAG] Perplexity - AI 검색 엔진 리뷰 (feat. ChatGPT 차이점)

0. Perplexity?Perplexity는 실시간 웹 검색과 AI 기술을 결합한 대화형 검색 엔진 서비스의 이름입니다. Perplexity AI는 사용자의 질문에 대해 정확하고 최신의 정보를 제공하는 것을 목표로 합니다. 이 서비스는 다양한 AI 모델을 활용하여 검색 결과를 생성합니다.Pro 버전의 경우, 사용자가 선택할 수 있는 여러 고급 AI 모델을 제공합니다. 이 모델들은 다음과 같습니다:GPT-4oClaude-3.5 SonnetSonar LargeClaude 3 OpusSonal huge이러한 다양한 모델 중에서 사용자가 원하는 모델을 선택하여 검색을 수행할 수 있습니다. 각 모델은 고유한 특성과 성능을 가지고 있어, 사용자의 필요에 따라 적절한 모델을 선택할 수 있습니다. Perplexity..

RAG 2024.09.09