전체 글 81

[Coding test] (바킹독 실전 알고리즘) 기초 코드 작성 요령 II (feat. Python)

INTRO KEY POINT 코딩테스트와 개발은 다르다 출력 맨 마지막 공백 혹은 줄바꿈이 추가로 있어도 상관이 없다. 디버거는 굳이 사용하지 않아도 된다. 강의에대한 내용정리는 바킹독님께서 친절하게 텍스트까지 남겨주시며 최고의 강의를 해주고 있으시니 이 블로그에서는 문제 풀이를 파이썬으로 풀어보기만 하도록 하겠습니다. 개념이나 내용이 궁금하다면 아래 링크에서 바킹독님의 강의를 듣는 것을 추천합니다. 기초 2주차 강의에서 진행한 실습 및 연습문제 파이썬 코드 풀이 입니다. https://blog.encrypted.gg/923 [실전 알고리즘] 0x02강 - 기초 코드 작성 요령 II 안녕하세요, 바킹독입니다. 이전 단원에서 오지고 지리게 고통받으셨을텐데 이번에는 훨씬 쉬우니까 걱정을 덜어내시고 마음 편하..

Coding test 2023.01.11

[Coding test] (바킹독 실전 알고리즘) 기초 코드 작성 요령 I : 시간복잡도, 공간복잡도 (feat. Python)

INTRO KEY POINT 시간 복잡도 공간복잡도를 문제를 보고 빠르게 파악하자! 강의에대한 내용정리는 바킹독님께서 친절하게 텍스트까지 남겨주시며 최고의 강의를 해주고 있으시니 이 블로그에서는 문제 풀이를 파이썬으로 풀어보기만 하도록 하겠습니다. 개념이나 내용이 궁금하다면 아래 링크에서 바킹독님의 강의를 듣는 것을 추천합니다. 기초 1주차 강의에서 시간복잡도, 공간복잡도 코딩테스트 문제 풀이 입니다. https://blog.encrypted.gg/922 [실전 알고리즘] 0x01강 - 기초 코드 작성 요령 I 안녕하세요, 바킹독입니다. 이번 단원에서는 기초 코드 작성 요령을 익혀보려고 합니다. 목차를 보셨으면 알겠지만 기초 코드 작성 요령이 두 강으로 나눠져있는데 앞으로 코드를 잘 짜기 위해 blog...

Coding test 2023.01.09

[Coding test] Python 코딩 테스트 환경 세팅

지인의 소개로 좋은 코딩 테스트 강의를 들을 수 있게 돼 이번 기회에 미루고 미뤘던 코딩 테스트 공부를 시작해보려 합니다. 하지만 지금 듣고 있는 강의도 그렇지만 대부분의 코딩 테스트 강의가 c, c++로 이뤄져 있어 몇년간 파이썬 언어를 사용해왔기 때문에 c++ 코드를 파이썬으로 옮겨가면서 강의를 들어보도록 하려합니다. 대부분 강의가 c, c++로 이뤄져 있다고 해서 파이썬이 코딩 테스트에서 불리한 것은 아니니 익숙한 언어로 진행하시면 될 것 같습니다. 1. Visual Studio Code 설치 https://code.visualstudio.com/ Visual Studio Code - Code Editing. Redefined Visual Studio Code is a code editor rede..

Coding test 2023.01.09

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)(2)

1. Experiment https://mz-moonzoo.tistory.com/6 저번 글에 이어서 1주일 정도 시간이 흘러서 그동안의 시행착오에 대해 정리해보고자 합니다. 우선 SOTA모델인 parseq를 활용했음에도 불구하고 드라마틱한 성능변화가 나타나지는 않았습니다. 그래서 여러가지 데이터셋 증강 기법과 파라미터 조정을 통해 성능 향상을 이끌어 냈습니다. 이제부터 실험과 실험 결과에 대해 간단히 작성하도록 하겠습니다. Experiment Summary 1. baseline score -> 0.6563230797 -> model : Resnet+RNN+CTC Loss Dataset : 대회 제공 train 데이터셋 (76888개) test_size=0.2 shuffle = True 2. parseq..

DL/Computer Vision 2023.01.09

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(2)

https://mz-moonzoo.tistory.com/5 [ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1) 1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학 mz-moonzoo.tistory.com 1장에 이어서 작성해보도록 하겠습니다. 실습 깃허브 코드 https://github.com/moonjoo98/DACON/tree/main/%EC%9C%A0%EC%A0%84%EC%B2%B4%20%EC%A0%95%EB%B3%B4%20%ED%92%88..

ML 2023.01.04

[Debugging]Parseq RuntimeError: NCCL error Call to CUDA function failed

OCR 대회를 진행하면서 Parseq 모델을 사용하면서 여러가지 Error를 접하게 됐습니다. https://mz-moonzoo.tistory.com/6 https://github.com/baudm/parseq/blob/main/train.py GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022) Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022) - GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive S..

Debugging 2023.01.03

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)

1.INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. 컴피티션을 진행하면서 겪은 시행착오 및 결과를 얻어가는 과정에 대해 이 글에서 작성하도록 하겠습니다. 2. State-of-the-Art(SOTA) scene text recognition task에서 sota를 달성한 parseq를 사용해보기로 결정했습니다. parseq의 논문 리뷰는 다음 글을 참고 해주시면 될 것 같습니다. 논문 리뷰 링크 3. Parseq https://github.com/baudm/parseq GitHub - baudm/parseq: Scene Text Recognition with Permu..

DL/Computer Vision 2023.01.02

[ML]AutoML 소개 및 실습(feat.pycaret, H2O, TPOT, LightAUTOML)(1)

1. INTRO AutoML(Automated Machine Learning)은 자동화된 Machine Learning(자동화된 ML 또는 AutoML이라고도 함)은 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스입니다. 데이터 과학자, 분석가 및 개발자는 모델 품질을 유지하면서 확장성, 효율성 및 생산성이 높은 ML 모델을 빌드할 수 있습니다. AutoML은 머신러닝을 위한 고급 모델 구축을 자동화할 수 있기 때문에 데이터 과학 전문 지식과 프로그래밍 스킬이 필요한 공정을 기계가 알아서 처리해서 누구나 쉽게 머신러닝을 활용할 수 있도록 도와줍니다. 연구자들은 "AutoML과 같은 기술들이 결국 모델 최적화 과정을 훨씬 더 효율적으로 발전시킬 것" 라고 말했습니다. 요즘 Daco..

ML 2022.12.30

[Environment]아나콘다 가상환경 구성 및 주피터 노트북 커널 연결

INTRO 가상환경은 개발을 진행할 때 각 프로젝트 별로 요구하는 패키지가 다를 때 사용하면 유용하다. 하나의 환경으로만 작업을 진행하다보면 패키지끼리 버전이 맞지 않아서 충돌이 발생하는 경우가 많은데 그 오류를 볼 때마다 스트레스를 받는다. 어떤 패키지를 삭제하고 설치해야하는지 하나하나 확인하면서 진행하기엔 효율적이지 못하다. 이 때, 유용하게 사용할 수 있는 것이 가상환경이다. 가상환경을 사용하면 프로젝트마다 원하는 패키지를 원하는 환경에 맞게 구성할 수 있다. 매번 가상환경을 새로 구성할 때마다 구글링을 통해 코드를 보고 진행하는 것이 귀찮아서 기록해두려고 한다. 1. 아나콘다 가상환경 생성 우선 아나콘다가 깔려있다는 가정하에 진행하도록 하겠다. cmd, Anaconda Prompt 원하는 곳에서 ..

Environment 2022.12.30

[Project]한국 광고 분류 모델 개발(1)

Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집한 뉴스 데이터에 광고인지 아닌지 라벨링을 진행하고 pretrained된 Korean Pre-trained Language Models을 활용해 fine-tuning을 진행해 한국 광고 분류 모델을 개발하고 성능을 테스트해 사용해보도록 하겠다. 그 과정을 기록하고 피드백을 하기 위해 이 글을 작성한다. 1. INTRO 뉴스 데이터를 수집하고 보면 아래와 같은 광고성 기사를 종종 접할 수 있다. 이러한 광고성 기사들은 뉴스 키워드 추출 및 토픽 모델링에서 많은 noise를 발생시키고 토픽 모델링의 성능을 저하 시키는 요..

Project 2022.12.30