Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집한 뉴스 데이터에 광고인지 아닌지 라벨링을 진행하고 pretrained된 Korean Pre-trained Language Models을 활용해 fine-tuning을 진행해 한국 광고 분류 모델을 개발하고 성능을 테스트해 사용해보도록 하겠다. 그 과정을 기록하고 피드백을 하기 위해 이 글을 작성한다. 1. INTRO 뉴스 데이터를 수집하고 보면 아래와 같은 광고성 기사를 종종 접할 수 있다. 이러한 광고성 기사들은 뉴스 키워드 추출 및 토픽 모델링에서 많은 noise를 발생시키고 토픽 모델링의 성능을 저하 시키는 요..