이미지 2

Molmo 논문 리뷰 - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

0. 서론LLM은 텍스트 뿐만 아니라 이미지에 대한 설명을 생성하고, 복잡한 시각적 질문에 정확하게 답하는 것과 같은 인상적인 멀티 모달 기능을 제공하고 있습니다. 그러나, 이러한 시각 언어 모델(VLM) 중 가장 성능이 좋은 모델은 모델 Weight, data, source code가 공개되지 않은채 독점 상태로 남아 있습니다. 그러나, VLM을 처음부터 구축하는 것은 매우 어려운 일이기 때문에 저자는 LLM에 대한 학문적 탐구를 촉진하기 위해 성능이 뛰어난 공개 멀티모달 모델을 개발하고 배포하고자 하였습니다. 이에 독자적으로 개발된 비전 인코더와 언어 모델을 결합해 훈련된 오픈 모델 Molmo를 공개했습니다.  Molmo는 다른 VLM들이 사용한 합성 데이터나 폐쇄적인 데이터에 의존하지 않고, 이미지..

DL/LLM 2024.09.27

[Voice] CNN (Convolutional neural network) 간단 설명

0. 개요 CNN은 주로 이미지 데이터 처리에 강점을 가지고 있지만, 오디오 데이터의 스펙트로그램(시간에 따른 주파수의 분포를 시각화한 것)과 같은 형태로 전처리하면 음성 신호 분석에도 활용할 수 있습니다. CNN으로 음성 데이터 처리를 하기에 앞서 CNN은 무엇인지에 대해 정리하겠습니다. 1. CNN의 역사 LeNet (1998) Yann LeCun에 의해 제안되었습니다. 초기 핸드쓴 문자 인식에 사용됐습니다. CNN의 초기 모델로서 기초적인 컨볼루션 레이어와 풀링 레이어의 구조를 갖고 있습니다. AlexNet (2012) 2012년 ImageNet Large Scale Visual Recognition Challenge에서 우승한 모델입니다. 딥러닝의 인기를 불러일으키는 데 중요한 역할을 했습니다. ..

DL/Voice 2024.03.12