테마 2

[Project]한국 뉴스 토픽 모델링 (feat. KoBERTopic)

INTRO https://mz-moonzoo.tistory.com/23 [Project]해외 뉴스 토픽 모델링 (feat. BERTopic) INTRO 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 한국 뉴스를 통 mz-moonzoo.tistory.com 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 수백 수천개의 뉴스 기사내에서 비슷한 주제별로 묶어서 핫한 주간, 월간 뉴스를 쉽게 파악해보고자 합니다. 사실 전체적인 흐름은 이전 글 해외 뉴스 토픽 모델링과 비슷합니다. ..

Project 2023.02.14

[Project]해외 뉴스 토픽 모델링 (feat. BERTopic)

INTRO 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 한국 뉴스를 통해 트렌드를 파악하는 것도 힘든데 해석하기도 어려운 해외 뉴스를 보고 트렌드를 파악하는 것은 더 어려울 것 입니다. 그렇기 때문에 수 많은 뉴스를 주제별로 묶어서 핫한 주간, 월간 뉴스를 쉽게 파악해보고자 합니다. BERTopic Topic Modeling 기법 중 하나입니다. BERT 기반 Embedding + Class-based TF-IDF를 사용한 것이 아이디어의 핵심입니다. 구조 BERTopic의 구조는 크게 세 단계로 볼 수 있습니다. 1. BERT를 이용해서 각 Document에 대해서 Embedding을..

Project 2023.02.13