인공지능 5

[ML] 머신러닝 기초 (2) 머신러닝 기본 용어 정리

행렬(Matrix) vs 벡터(Vector) VS 스칼라(Scalar) 머신러닝에서 벡터와 행렬은 그리고 스칼라는 데이터를 표현하고 처리하는 데 사용되는 기본적인 수학적 구조입니다. 행렬(Matrix) 정의 : 행렬이란 숫자들을 행과 열로 구성된 직사각형 형태로 배열한 것입니다. 이는 여러 숫자들을 모아서 한번에 표현할 수 있다는 것인데, 다량의 데이터를 한번에 표현할 수 있는 좋은 수단이라는 것을 의미합니다. 이로 인해 머신러닝에서 행렬은 데이터 세트를 표현하거나 여러 데이터 포인트를 동시에 처리하는 데 자주 사용됩니다. 예를 들어, 여러 데이터 포인트가 각각의 행으로 구성되고, 각 행의 열이 다양한 특성을 나타내는 형식입니다. 표현 : 행렬은 행(row)과 열(column)로 구성됩니다. 예를 들어,..

ML 2024.01.31

[ML] 머신러닝 기초 (1) 머신러닝 소개

머신러닝 공부를 시작하며... 데이터 사이언티스트, AI 엔지니어, ML 엔지니어 직무를 준비하면서 학부 시절에 배운 머신러닝, 딥러닝 기초 이론들을 많이 잊어버린거 같아 다시 기초부터 다지고자 합니다. 다음과 같은 커리큘럼으로 블로그 글을 작성해보려고 합니다. 1. 머신러닝 기초 이론 2. 딥러닝 기초 이론 3. NLP 전통적인 논문 리뷰 및 구현 4. LLM 논문 리뷰 (현재 리소스로 구현이 가능하다면.. 구현까지) 5. NLP 분야 최신 논문에서 구현체가 없는 모델 구현 NLP 도메인에 대한 관심으로 공부를 시작하는 것이기 때문에 논문을 읽고 소스코드 없이 구현할 수 있는 수준까지 역량을 키워볼 생각입니다. 그럼 머신러닝 기초 이론부터 다뤄보겠습니다. 학부 시절에 사용한 머신러닝 교재를 모두 버린 ..

ML 2024.01.29

[Project]한국 뉴스 감성분류, NER모델 Inference

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 감정 분류 모델 개발을 우선 진행하기로 했습니다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중입니다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 베타 버전으로 간..

Project 2023.02.15

[Project]한국 뉴스 NER 모델 개발 (feat. KCELECTRA)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.02.15

[Project]한국 뉴스 토픽 모델링 (feat. KoBERTopic)

INTRO https://mz-moonzoo.tistory.com/23 [Project]해외 뉴스 토픽 모델링 (feat. BERTopic) INTRO 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 한국 뉴스를 통 mz-moonzoo.tistory.com 트렌드를 따라가기 위해 많은 사람들이 뉴스를 봅니다. 하지만 하루만해도 수백 수천개의 뉴스가 올라오고 그 중 어떤 뉴스가 중요한 뉴스인지 파악하기는 쉽지 않습니다. 수백 수천개의 뉴스 기사내에서 비슷한 주제별로 묶어서 핫한 주간, 월간 뉴스를 쉽게 파악해보고자 합니다. 사실 전체적인 흐름은 이전 글 해외 뉴스 토픽 모델링과 비슷합니다. ..

Project 2023.02.14