dl 4

[Project]한국 경제 뉴스 기사 감정 분류 모델 개발 (feat.pytorch)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.01.20

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. Trocr)

INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. TrOCR MaskOCR이 성능이 좋아보이지만 구현된 코드가 없어서 TrOCR을 사용해봤습니다. TrOCR외에도 여러 모델을 사용해봤는데 이 글에서는 TrOCR 학습 과정에 대해 적어보려합니다. 1. 학습 환경 설정 깃허브 복제 및 라이브러리 설치 라이브러리 충돌이 나는 것을 방지하기 위해 아나콘다 가상환경을 새로 구축하고 실행했습니다. 우선 git clone을 통해 깃허브 리포지토리를 복제해 requirements를 설치 해주시면 됩니다. 패키지 불러오기 아래의 def 함수들은 실행하지 않으셔도 무방합니다. 가끔 에러가..

DL/Computer Vision 2023.01.13

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(2)

https://mz-moonzoo.tistory.com/5 [ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1) 1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학 mz-moonzoo.tistory.com 1장에 이어서 작성해보도록 하겠습니다. 실습 깃허브 코드 https://github.com/moonjoo98/DACON/tree/main/%EC%9C%A0%EC%A0%84%EC%B2%B4%20%EC%A0%95%EB%B3%B4%20%ED%92%88..

ML 2023.01.04

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1)

1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학자, 분석가 및 개발자는 모델 품질을 유지하면서 확장성, 효율성 및 생산성이 높은 ML 모델을 빌드할 수 있습니다. AutoML은 머신러닝을 위한 고급 모델 구축을 자동화할 수 있기 때문에 데이터 과학 전문 지식과 프로그래밍 스킬이 필요한 공정을 기계가 알아서 처리해서 누구나 쉽게 머신러닝을 활용할 수 있도록 도와줍니다. 연구자들은 "AutoML과 같은 기술들이 결국 모델 최적화 과정을 훨씬 더 효율적으로 발전시킬 것" 라고 말했습니다. 요즘 Daco..

ML 2022.12.30