딥시크 3

[AI] 딥시크 이후, 2025년 1~2월 최신 LLM 이슈 요약 (Gemini, DeepSeek, ChatGPT, Qwen)

개요 딥시크(DeepSeek) R1 모델은 최근 인공지능 업계에 큰 파장을 일으킨 AI 모델입니다. 기존 모델 대비 90~95%의 비용 절감과 뛰어난 추론 능력을 자랑하며, 특히 저가 저사양 GPU를 사용하여 오픈AI의 GPT-3와 유사한 성능을 달성했다는 점에서 주목받고 있습니다. 딥시크는 600만 달러 미만의 비용을 써서 수십억 달러를 사용한 오픈AI에 필적하는 모델을 냈다는 분석에 AI업계에 비상이 걸렸습니다.이에 OpenAI, Qwen 여러 기업들이 급격하게 새로운 모델과 기능을 공개하고 있습니다.트렌드 팔로잉을 하면서 직접 찾은 1 ~ 2월 사이에 LLM 관련 이슈를 간단하게 정리해봤습니다.  Issue1. Google - [Gemini] 2024/12/11Gemini 1.5 pro Deep R..

AI Tech 2025.02.05

[AI] DeepSeek R1 vs ChatGPT o1 비교

ChatGPT o1 vs DeepSeek R1DeepSeek R1 모델이 ChatGPT o1 모델보다 월등히 적은 비용으로 유사한 성능을 보여 이슈가 되고 있습니다.그렇다면 두 모델은 어떠한 차이가 있는지 DeepSeek를 기준으로 비교 해보겠습니다. DeepSeek 모델의 자세한 아키텍처와 학습 방식은 추후에 V3, R1 논문 리뷰 글을 작성하도록 하겠습니다. 1. 모델 아키텍처ChatGPT o1구조 : 기본적으로 Transformer 아키텍처를 사용하며, 다중 헤드 어텐션과 은닉층을 통해 복잡한 문맥 관계를 모델링합니다.추론 비공개 : 내부적으로 체인-오브-쏘트(chain-of-thought) 방식이 적용되지만, 사용자에게는 그 과정을 숨기는 방식으로 설계되어 있어 최종 답변만 제공됩니다.DeepSe..

AI Tech 2025.02.05

[AI] 오픈소스 모델 DeepSeek R1 요약

DeepSeek R1?1. 개요DeepSeek R1은 2025년 1월 20일 정식 출시된 모델로, DeepSeek의 전신인 DeepSeek-V3를 기반으로 하여 강화학습(RL)과 감독 미세 조정(SFT)을 결합한 혁신적 학습 방법을 적용해 개발되었습니다. 특히 ‘체인 오브 쏘트(Chain-of-Thought)’ 기법을 통해 사용자가 질의를 주면 모델이 내부 추론 과정을 단계별로 공개하며 문제 해결 능력을 향상시킵니다. 2. 효율성 및 오픈소스 DeepSeek R1은 약 600만 달러의 비교적 적은 비용으로 개발되었으며, 이는 OpenAI의 수억 달러에 달하는 투자 대비 월등한 비용 효율성을 보여줍니다. 또한, MIT 라이선스 하에 오픈소스로 공개되어 누구나 자유롭게 사용·수정할 수 있어 개발자 커뮤니티 ..

AI Tech 2025.02.03