ocr 6

[Computer Vision] Methods of Classification and Character Recognitionfor Table Items through Deep Learning (2021) 리뷰 및 구현

1. 서론 문서 내 표 영역의 경우, 표 내부 항목명과 항목 내용을 인식하는 것은 업무 자동화를 위한 문서 처리 에 있어서 중요한 부분입니다. 하지만 OCR만을 통해서는 표 내부의 문자를 인식하는 것에만 국한되어있고, 해당 내용이 무슨 의미를 가지는지는 인식을하지 못합니다. 따라서 문서 인식을 수행한 후, 사람의 손으로 항목을 분류해야 한다는 불편함이 있으며, 표 영역 내 구분자는 문자 인식의 정확도를 떨어뜨리는 요인이 되기도 합니다. 본 논문에서는 딥러닝 신경망을 통해 표 항목 내의 문자를 인식하고, 이를 통해 문서를 디지털화하는 방법을 제안합니다. 먼저 스캔된 문서 이미지 파일에서 CNN을 통해 표 영역을 검출합니다. 그 후, 표 영역 내 수직선과 수평선의 구분자로 분리된 각 영역을 검출한 후, 각각..

DL/Computer Vision 2024.02.22

[Computer Vision] LayoutLM: Pre-training of Text and Layout for Document Image Understanding (2019) 리뷰

0. 요약 NLP 사전 학습 모델이 널리 사용되고 있지만, 대부분 텍스트에만 집중하고 문서 이미지 이해에 필수적인 레이아웃과 스타일 정보는 간과하고 있습니다. 본 논문에서는 스캔된 문서 이미지 전반에 걸쳐 텍스트와 레이아웃 그리고 이미지 정보를 고려한 joint 모델 LayoutLM을 제안합니다. (BERT + Fast R-CNN) LayoutLM이 문서 이미지 이해를 위해 텍스트와 레이아웃의 정보를 단일 프레임워크에서 학습하는 첫 번째 사례입니다. 이는 여러 Downstream task에서 최고 성능을 달성했습니다. form understanding (70.72 → 79.27) receipt understanding(94.02 → 95.24) document image classification (93..

DL/Computer Vision 2024.02.22

[Computer Vision] Document Layout Analysis (feat. OCR)

1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스럽게 인식할 수 있습니다. 하지만 OCR 기술은 단순히 글자만 인식할 뿐, 문서에 대해 자동으로 이해하고 각 글자들이 어떤 맥락에서 배치되어 있는지는 전혀 읽어내지 못합니다. 그래서 등장한 것이 Document Layout Analysis 기술입니다. 컴퓨터 비전(CV) 또는 자연어 처리(NLP)에서 사용하는 기술로, 주로 텍스트 문서내에서 관심 영역을 식별하고 분류하는 기술입니다. 이 기술은 문서의 레이아웃을 분석하여 텍스트, 이미지, 표, 그래프 등 다양한 요소를 구분하고, 이러한 요소들..

DL/Computer Vision 2024.02.22

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. Trocr)

INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. TrOCR MaskOCR이 성능이 좋아보이지만 구현된 코드가 없어서 TrOCR을 사용해봤습니다. TrOCR외에도 여러 모델을 사용해봤는데 이 글에서는 TrOCR 학습 과정에 대해 적어보려합니다. 1. 학습 환경 설정 깃허브 복제 및 라이브러리 설치 라이브러리 충돌이 나는 것을 방지하기 위해 아나콘다 가상환경을 새로 구축하고 실행했습니다. 우선 git clone을 통해 깃허브 리포지토리를 복제해 requirements를 설치 해주시면 됩니다. 패키지 불러오기 아래의 def 함수들은 실행하지 않으셔도 무방합니다. 가끔 에러가..

DL/Computer Vision 2023.01.13

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)(2)

1. Experiment https://mz-moonzoo.tistory.com/6 저번 글에 이어서 1주일 정도 시간이 흘러서 그동안의 시행착오에 대해 정리해보고자 합니다. 우선 SOTA모델인 parseq를 활용했음에도 불구하고 드라마틱한 성능변화가 나타나지는 않았습니다. 그래서 여러가지 데이터셋 증강 기법과 파라미터 조정을 통해 성능 향상을 이끌어 냈습니다. 이제부터 실험과 실험 결과에 대해 간단히 작성하도록 하겠습니다. Experiment Summary 1. baseline score -> 0.6563230797 -> model : Resnet+RNN+CTC Loss Dataset : 대회 제공 train 데이터셋 (76888개) test_size=0.2 shuffle = True 2. parseq..

DL/Computer Vision 2023.01.09

[Computer Vision]DACON 교원 그룹 AI 챌린지 Task : OCR (feat. parseq)

1.INTRO DACON에서 진행한 교원그룹 AI 챌린지 Task : OCR 평가지표 : Accuracy 처음으로 진행해보는 OCR Task라서 이것저것 찾아보면서 컴피티션을 진행했습니다. 컴피티션을 진행하면서 겪은 시행착오 및 결과를 얻어가는 과정에 대해 이 글에서 작성하도록 하겠습니다. 2. State-of-the-Art(SOTA) scene text recognition task에서 sota를 달성한 parseq를 사용해보기로 결정했습니다. parseq의 논문 리뷰는 다음 글을 참고 해주시면 될 것 같습니다. 논문 리뷰 링크 3. Parseq https://github.com/baudm/parseq GitHub - baudm/parseq: Scene Text Recognition with Permu..

DL/Computer Vision 2023.01.02