허깅페이스 2

[Project]한국 경제 뉴스 기사 감정 분류 모델 개발 (feat.pytorch)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.01.20

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. Trocr)

INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. TrOCR MaskOCR이 성능이 좋아보이지만 구현된 코드가 없어서 TrOCR을 사용해봤습니다. TrOCR외에도 여러 모델을 사용해봤는데 이 글에서는 TrOCR 학습 과정에 대해 적어보려합니다. 1. 학습 환경 설정 깃허브 복제 및 라이브러리 설치 라이브러리 충돌이 나는 것을 방지하기 위해 아나콘다 가상환경을 새로 구축하고 실행했습니다. 우선 git clone을 통해 깃허브 리포지토리를 복제해 requirements를 설치 해주시면 됩니다. 패키지 불러오기 아래의 def 함수들은 실행하지 않으셔도 무방합니다. 가끔 에러가..

DL/Computer Vision 2023.01.13