ML 9

[ML] 시계열 데이터 - 특징, 정상성 / 비정상성, ACF, PACF, ADF

1. 시계열 데이터란?시계열 데이터(Time Series Data)는 시간의 흐름에 따라 순서대로 수집된 데이터 집합을 말합니다. 이 데이터는 시간 축을 따라 변화하는 어떤 현상을 관찰한 결과로, 금융, 경제, 기상, 공학, 의료 등 다양한 분야에서 활용됩니다.2. 시계열 데이터 특징시간 종속성(Time Dependence) :시계열 데이터는 관측값들이 시간에 따라 순서대로 나열된 데이터를 의미합니다. 즉, 데이터의 순서가 매우 중요하며, 시간 순서가 뒤바뀌면 데이터의 의미가 달라질 수 있습니다.자기 상관성(Autocorrelation):시계열 데이터는 과거의 값이 현재나 미래의 값에 영향을 미치는 경향이 있습니다. 이를 자기 상관성이라고 하며, 이는 시계열 분석의 중요한 요소입니다.계절성(Seasona..

ML 2024.07.05

[ML] 논문구현(CSSMC) - 클래스 불균형 데이터 분류 예측을 위한 클러스터 기반 언더샘플링 기법

1. 서론http://ki-it.com/xml/40725/40725.pdf 클래스 불균형 데이터 분류 예측을 위한 클러스터 기반 언더샘플링 기법 (2024) 신용카드 사기 탐지나 장애 탐지 등 이상 탐지 분야에서는 다수클래스와 소수클래스가 불균형하게 분포하며 분류예측 성능에 많은 오류를 야기합니다. 해당 논문에서는 Kullback-Leibler Divergence을 활용하여 다수클래스의 모집단 분포를 반영하는 Cluster 기반 언더샘플링 방법을 제안했습니다. 이 방법은 다수클래스 데이터와 확률분포가 가장 유사한 샘플을 추출함으로써 언더샘플링의 주요 단점인 정보손실을 최소화합니다. 2. 본문기존의 언더샘플링 기법은 다수클래스와 소수클래스 분포에 따라 데이터 축약의 효과가 미미하거나, 대표성이 떨어져 오히..

ML 2024.06.17

[ML] 머신러닝 기초 (5) Linear Regression. 회귀 실습

https://mz-moonzoo.tistory.com/52 [ML] 머신러닝 기초 (4) Linear Regression 회귀 이론 https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 mz-moonzoo.tistory.com 선형 회귀의 이론을 포스팅하고 실습 강의 리뷰는 굳이 하지 않으려했지만 간단하게 코드 리뷰를 해보겠습니다. 실습 강의 및 코드는 메타코드 링크에서 받아보실 수 있습니다. https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드..

ML 2024.02.19

[ML] 머신러닝 기초 (4) Linear Regression 회귀 이론

https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 머신러닝 강의를 들으면서 내용을 정리하고 있습니다. 현재 무료로 강의를 보실 수 있으니 궁금하신 부분은 강의를 수강하시면 좋을 것 같습니다. 아! 그리고 실습은 제가 머신러닝 이론에 대해서 학부과정에 배웠던 내용을 리마인드 하고자 강의를 듣고 있는 것이라 실습 관련된 포스팅은 진행하지 않습니다. 실습을 원하시는 분들은 강의를 듣고 직접 따라서 해보시는 것을 추천드립니다! Linear Regression 차수를 높인 다항회귀 역시 선형 회귀로 봅..

ML 2024.02.15

[ML] 머신러닝 기초 (3) 머신러닝 기본 수학 이론

https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 머신러닝 강의를 들으면서 내용을 정리하고 있습니다. 현재 무료로 강의를 보실 수 있으니 궁금하신 부분은 강의를 수강하시면 좋을 것 같습니다. 함수 두 집합 사이의 관계 혹은 규칙 y = f(x)의 식으로 표현, 이 때의 x는 입력값, y는 출력값 일차 함수 y가 x에 대한 일차식으로 표현된 경우 y = ax + b (a != 0) a를 기울기, b를 절편이라고 표현 이차 함수 y가 x에대한 이차식으로 표현된 경우 y=a(x-p)^2 +q(a!=..

ML 2024.02.14

[ML] 머신러닝 기초 (2) 머신러닝 기본 용어 정리

행렬(Matrix) vs 벡터(Vector) VS 스칼라(Scalar) 머신러닝에서 벡터와 행렬은 그리고 스칼라는 데이터를 표현하고 처리하는 데 사용되는 기본적인 수학적 구조입니다. 행렬(Matrix) 정의 : 행렬이란 숫자들을 행과 열로 구성된 직사각형 형태로 배열한 것입니다. 이는 여러 숫자들을 모아서 한번에 표현할 수 있다는 것인데, 다량의 데이터를 한번에 표현할 수 있는 좋은 수단이라는 것을 의미합니다. 이로 인해 머신러닝에서 행렬은 데이터 세트를 표현하거나 여러 데이터 포인트를 동시에 처리하는 데 자주 사용됩니다. 예를 들어, 여러 데이터 포인트가 각각의 행으로 구성되고, 각 행의 열이 다양한 특성을 나타내는 형식입니다. 표현 : 행렬은 행(row)과 열(column)로 구성됩니다. 예를 들어,..

ML 2024.01.31

[ML] 머신러닝 기초 (1) 머신러닝 소개

머신러닝 공부를 시작하며... 데이터 사이언티스트, AI 엔지니어, ML 엔지니어 직무를 준비하면서 학부 시절에 배운 머신러닝, 딥러닝 기초 이론들을 많이 잊어버린거 같아 다시 기초부터 다지고자 합니다. 다음과 같은 커리큘럼으로 블로그 글을 작성해보려고 합니다. 1. 머신러닝 기초 이론 2. 딥러닝 기초 이론 3. NLP 전통적인 논문 리뷰 및 구현 4. LLM 논문 리뷰 (현재 리소스로 구현이 가능하다면.. 구현까지) 5. NLP 분야 최신 논문에서 구현체가 없는 모델 구현 NLP 도메인에 대한 관심으로 공부를 시작하는 것이기 때문에 논문을 읽고 소스코드 없이 구현할 수 있는 수준까지 역량을 키워볼 생각입니다. 그럼 머신러닝 기초 이론부터 다뤄보겠습니다. 학부 시절에 사용한 머신러닝 교재를 모두 버린 ..

ML 2024.01.29

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(2)

https://mz-moonzoo.tistory.com/5 [ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1) 1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학 mz-moonzoo.tistory.com 1장에 이어서 작성해보도록 하겠습니다. 실습 깃허브 코드 https://github.com/moonjoo98/DACON/tree/main/%EC%9C%A0%EC%A0%84%EC%B2%B4%20%EC%A0%95%EB%B3%B4%20%ED%92%88..

ML 2023.01.04

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1)

1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학자, 분석가 및 개발자는 모델 품질을 유지하면서 확장성, 효율성 및 생산성이 높은 ML 모델을 빌드할 수 있습니다. AutoML은 머신러닝을 위한 고급 모델 구축을 자동화할 수 있기 때문에 데이터 과학 전문 지식과 프로그래밍 스킬이 필요한 공정을 기계가 알아서 처리해서 누구나 쉽게 머신러닝을 활용할 수 있도록 도와줍니다. 연구자들은 "AutoML과 같은 기술들이 결국 모델 최적화 과정을 훨씬 더 효율적으로 발전시킬 것" 라고 말했습니다. 요즘 Daco..

ML 2022.12.30