Sota 4

Molmo 논문 리뷰 - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

0. 서론LLM은 텍스트 뿐만 아니라 이미지에 대한 설명을 생성하고, 복잡한 시각적 질문에 정확하게 답하는 것과 같은 인상적인 멀티 모달 기능을 제공하고 있습니다. 그러나, 이러한 시각 언어 모델(VLM) 중 가장 성능이 좋은 모델은 모델 Weight, data, source code가 공개되지 않은채 독점 상태로 남아 있습니다. 그러나, VLM을 처음부터 구축하는 것은 매우 어려운 일이기 때문에 저자는 LLM에 대한 학문적 탐구를 촉진하기 위해 성능이 뛰어난 공개 멀티모달 모델을 개발하고 배포하고자 하였습니다. 이에 독자적으로 개발된 비전 인코더와 언어 모델을 결합해 훈련된 오픈 모델 Molmo를 공개했습니다.  Molmo는 다른 VLM들이 사용한 합성 데이터나 폐쇄적인 데이터에 의존하지 않고, 이미지..

DL/LLM 2024.09.27

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. Trocr)

INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. TrOCR MaskOCR이 성능이 좋아보이지만 구현된 코드가 없어서 TrOCR을 사용해봤습니다. TrOCR외에도 여러 모델을 사용해봤는데 이 글에서는 TrOCR 학습 과정에 대해 적어보려합니다. 1. 학습 환경 설정 깃허브 복제 및 라이브러리 설치 라이브러리 충돌이 나는 것을 방지하기 위해 아나콘다 가상환경을 새로 구축하고 실행했습니다. 우선 git clone을 통해 깃허브 리포지토리를 복제해 requirements를 설치 해주시면 됩니다. 패키지 불러오기 아래의 def 함수들은 실행하지 않으셔도 무방합니다. 가끔 에러가..

DL/Computer Vision 2023.01.13

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)(2)

1. Experiment https://mz-moonzoo.tistory.com/6 저번 글에 이어서 1주일 정도 시간이 흘러서 그동안의 시행착오에 대해 정리해보고자 합니다. 우선 SOTA모델인 parseq를 활용했음에도 불구하고 드라마틱한 성능변화가 나타나지는 않았습니다. 그래서 여러가지 데이터셋 증강 기법과 파라미터 조정을 통해 성능 향상을 이끌어 냈습니다. 이제부터 실험과 실험 결과에 대해 간단히 작성하도록 하겠습니다. Experiment Summary 1. baseline score -> 0.6563230797 -> model : Resnet+RNN+CTC Loss Dataset : 대회 제공 train 데이터셋 (76888개) test_size=0.2 shuffle = True 2. parseq..

DL/Computer Vision 2023.01.09

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)

1.INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. 컴피티션을 진행하면서 겪은 시행착오 및 결과를 얻어가는 과정에 대해 이 글에서 작성하도록 하겠습니다. 2. State-of-the-Art(SOTA) scene text recognition task에서 sota를 달성한 parseq를 사용해보기로 결정했습니다. parseq의 논문 리뷰는 다음 글을 참고 해주시면 될 것 같습니다. 논문 리뷰 링크 3. Parseq https://github.com/baudm/parseq GitHub - baudm/parseq: Scene Text Recognition with Permu..

DL/Computer Vision 2023.01.02