분류 전체보기 74

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1)

1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학자, 분석가 및 개발자는 모델 품질을 유지하면서 확장성, 효율성 및 생산성이 높은 ML 모델을 빌드할 수 있습니다. AutoML은 머신러닝을 위한 고급 모델 구축을 자동화할 수 있기 때문에 데이터 과학 전문 지식과 프로그래밍 스킬이 필요한 공정을 기계가 알아서 처리해서 누구나 쉽게 머신러닝을 활용할 수 있도록 도와줍니다. 연구자들은 "AutoML과 같은 기술들이 결국 모델 최적화 과정을 훨씬 더 효율적으로 발전시킬 것" 라고 말했습니다. 요즘 Daco..

ML 2022.12.30

[Environment]아나콘다 가상환경 구성 및 주피터 노트북 커널 연결

INTRO 가상환경은 개발을 진행할 때 각 프로젝트 별로 요구하는 패키지가 다를 때 사용하면 유용하다. 하나의 환경으로만 작업을 진행하다보면 패키지끼리 버전이 맞지 않아서 충돌이 발생하는 경우가 많은데 그 오류를 볼 때마다 스트레스를 받는다. 어떤 패키지를 삭제하고 설치해야하는지 하나하나 확인하면서 진행하기엔 효율적이지 못하다. 이 때, 유용하게 사용할 수 있는 것이 가상환경이다. 가상환경을 사용하면 프로젝트마다 원하는 패키지를 원하는 환경에 맞게 구성할 수 있다. 매번 가상환경을 새로 구성할 때마다 구글링을 통해 코드를 보고 진행하는 것이 귀찮아서 기록해두려고 한다. 1. 아나콘다 가상환경 생성 우선 아나콘다가 깔려있다는 가정하에 진행하도록 하겠다. cmd, Anaconda Prompt 원하는 곳에서 ..

Environment 2022.12.30

[Project]한국 광고 분류 모델 개발(1)

Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집한 뉴스 데이터에 광고인지 아닌지 라벨링을 진행하고 pretrained된 Korean Pre-trained Language Models을 활용해 fine-tuning을 진행해 한국 광고 분류 모델을 개발하고 성능을 테스트해 사용해보도록 하겠다. 그 과정을 기록하고 피드백을 하기 위해 이 글을 작성한다. 1. INTRO 뉴스 데이터를 수집하고 보면 아래와 같은 광고성 기사를 종종 접할 수 있다. 이러한 광고성 기사들은 뉴스 키워드 추출 및 토픽 모델링에서 많은 noise를 발생시키고 토픽 모델링의 성능을 저하 시키는 요..

Project 2022.12.30

[Environment] Window11 딥러닝 환경 구축

항상 새로운 환경에서 딥러닝 환경을 구축하다보니 매번 비슷한 시행착오를 겪는거 같아서 작성함. 우선 아나콘다는 설치돼있다는 가정하에 시작. 1. GPU모델 확인 및 NVIDA 설정 - 기존에 설치된 설정 삭제하고 진행 1) 제어판 - 프로그램 추가/제거 - NVIDIA가 들어가있는 것 삭제 2) 그래픽 드라이버 다운로드 - 자신에게 맞는 드라이버 확인(하단 장치관리자 참고) https://www.nvidia.co.kr/Download/index.aspx?lang=kr 3) 장치관리자 그래픽카드 삭제 4) 재부팅 후 기존에 다운받은 그래픽카드 실행 - 모두 "예" 하여 설치(중간에 Experience 설치는 자유, 저는 안했어요) 5) cmd에서 nvidia-smi 로 확인 2.CUDA 설치 1) 내 GP..

Environment 2022.12.29