DL/LLM

Allen Institute - Molmo 오픈소스 멀티모달

moonzoo 2024. 9. 27. 10:05

allenai/Molmo

https://huggingface.co/allenai/Molmo-7B-O-0924

 

allenai/Molmo-7B-O-0924 · Hugging Face

Molmo 7B-O Molmo is a family of open vision-language models developed by the Allen Institute for AI. Molmo models are trained on PixMo, a dataset of 1 million, highly-curated image-text pairs. It has state-of-the-art performance among multimodal models wit

huggingface.co

 

앨런인공지능연구소(AI2)가 9월 25일에 오픈소스 멀티모달 'Molmo(몰모)'를 공개했습니다.

Ai2는 몰모가 오픈AI, 구글, 앤트로픽 같은 대형 기업의 독점 모델들과 비슷하거나 더 뛰어난 성능을 발휘한다고 주장합니다.특히, 720억 개의 매개변수를 가진 가장 큰 몰모 모델은 오픈AI의 GPT-4o와 비교해도 탁월한 성능을 보이며, 이미지, 차트, 문서 이해 능력에서 우수한 결과를 나타내고 있습니다.

 

https://molmo.allenai.org/paper.pdf (출처 : 논문)


또한, Molmo 7B 모델은 OpenAI의 최신 모델과 유사한 성능을 보이는데, 이는 기존 모델들보다 더 효율적인 데이터 수집 및 훈련 방법 때문이라고 합니다.

 

Molmo 학습 방법
- 60만 개의 고품질 이미지로 구성된 정제된 데이터셋 사용
- 인간 주석자가 각 이미지에 대해 상세한 설명을 제공
- 경쟁 모델들에 비해 1000배 적은 훈련 데이터 사용

 

Molmo 모델 시리즈
1. Molmo-72B: 720억 개의 매개변수를 가진 가장 진보된 모델
2. Molmo-7B-D: 70억 개의 매개변수를 가진 모델
3. Molmo-7B-O: 70억 개의 매개변수를 가진 또 다른 모델
4. MolmoE-1B: 10억 개의 매개변수를 가진 가장 하드웨어 효율적인 모델

주요 기능
- 자연어 프롬프트에 대한 응답
- 이미지에서 객체 식별, 계수, 설명
- 차트에 시각화된 데이터 설명
- 이미지 내 텍스트 이해
- 시각적 접지(Visual Grounding) 능력

Molmo 모델들은 현재 Hugging Face에서 연구 및 상업적 용도로 사용이 가능하며, AI2는 향후 언어 및 시각 훈련 데이터, 미세조정 데이터, 모델 가중치, 소스 코드 등을 공개할 계획이라고 밝혔습니다. 이러한 Molmo의 공개는 AI 분야에서 오픈소스 모델의 중요성이 커지고 있음을 보여주며, 투명성과 접근성 측면에서 갖을 수 있습니다.

 


마치며

지금까지 llama, Qwen, Mixtral, EEVE 등의 오픈 소스 LLM의 7B 수준의 컴퓨팅 용량으로는 GPT4o와 성능을 비교하면 떨어지는 부분이 명확하게 있었습니다. 그러나, GPT4o는 API를 사용하여 과금이 되는 형태기 때문에 서비스에 적용하기엔 부담이 되는 것이 현실입니다.

 

그러나, Molmo의 등장으로 GPT4o의 API를 사용하지 않아도 유사 또는 그 이상의 성능을 낼 수 있을 것이라는 기대를 하고 있습니다. 이에 Molmo의 논문을 리뷰하고, 실제로 Molmo 모델과 GPT4o 그리고 오픈소스 모델과 성능을 비교하는 글을 작성해보려합니다.