Project 7

[Project]문장 유형 분류 AI 경진대회

INTRO 평소에 NLP에 관심이 많아 프로젝트와 논문 공부를 하던 중 우연히 문장을 입력받아 문장의 ‘유형’, ‘시제’, ‘극성’, ‘확실성’을 예측하는 Text Multilabel Classfication Task의 DACON 문장 유형 분류 AI 경진 대회에 참가하게 됐습니다. 대회기간이 짧아 모델의 구조를 수정하기보다는 데이터의 품질을 향상시키고 여러 Pretrained모델 중 가장 성능이 잘나오는 몇개의 모델을 찾고자 했습니다. - 데이터 증강, 데이터 전처리 기법을 사용해 데이터셋의 품질과 양을 향상시켰습니다. - Pretrained 모델의 일부분을 얼리고 미세조정을 진행했습니다. - 여러 한국어 Pretrained 모델의 성능을 비교해보면서 성능이 좋은 모델들을 앙상블 했습니다. 이러한 과정..

Project 2023.03.07

[Project]한국 뉴스 감성분류, NER모델 Inference

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 감정 분류 모델 개발을 우선 진행하기로 했습니다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중입니다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 베타 버전으로 간..

Project 2023.02.15

[Project]한국 뉴스 NER 모델 개발 (feat. KCELECTRA)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.02.15

[Project]한국 뉴스 토픽 모델링 (feat. KoBERTopic)

INTRO https://mz-moonzoo.tistory.com/23 [Project]해외 뉴스 토픽 모델링 (feat. BERTopic) INTRO 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 한국 뉴스를 통 mz-moonzoo.tistory.com 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 수백 수천개의 뉴스 기사내에서 비슷한 주제별로 묶어서 핫한 주간, 월간 뉴스를 쉽게 파악해보고자 합니다. 사실 전체적인 흐름은 이전 글 해외 뉴스 토픽 모델링과 비슷합니다. ..

Project 2023.02.14

[Project]해외 뉴스 토픽 모델링 (feat. BERTopic)

INTRO 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 한국 뉴스를 통해 트렌드를 파악하는 것도 힘든데 해석하기도 어려운 해외 뉴스를 보고 트렌드를 파악하는 것은 더 어려울 것 입니다. 그렇기 때문에 수 많은 뉴스를 주제별로 묶어서 핫한 주간, 월간 뉴스를 쉽게 파악해보고자 합니다. BERTopic Topic Modeling 기법 중 하나입니다. BERT 기반 Embedding + Class-based TF-IDF를 사용한 것이 아이디어의 핵심입니다. 구조 BERTopic의 구조는 크게 세 단계로 볼 수 있습니다. 1. BERT를 이용해서 각 Document에 대해서 Embedding을..

Project 2023.02.13

[Project]한국 경제 뉴스 기사 감정 분류 모델 개발 (feat.pytorch)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.01.20

[Project]한국 광고 분류 모델 개발(1)

Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집한 뉴스 데이터에 광고인지 아닌지 라벨링을 진행하고 pretrained된 Korean Pre-trained Language Models을 활용해 fine-tuning을 진행해 한국 광고 분류 모델을 개발하고 성능을 테스트해 사용해보도록 하겠다. 그 과정을 기록하고 피드백을 하기 위해 이 글을 작성한다. 1. INTRO 뉴스 데이터를 수집하고 보면 아래와 같은 광고성 기사를 종종 접할 수 있다. 이러한 광고성 기사들은 뉴스 키워드 추출 및 토픽 모델링에서 많은 noise를 발생시키고 토픽 모델링의 성능을 저하 시키는 요..

Project 2022.12.30