nlp 8

[Computer Vision] Extraction of Table Text Information in Documents Using Deep Learning Object Detection (2023)

0. 요약 본 논문에서는 딥러닝 객체 인식을 기반으로 한글 문서 내 표 및 박스의 텍스트 정보를 추출하고 이를 재배열하여 문장화하는 방안을 제시하였습니다. 객체 감지 모델 Yolo를 통해 추출한 문서 내 표 및 박스의 좌표 정보를 토대로 OpenCV와 Google Cloud Platform의 Vision API를 적용하여 문서로부터 표 및 박스 이미지를 분리하고 텍스트를 감지하였습니다. 추출한 표 및 박스 내 텍스트를 문장화하기 위한 규칙 기반의 텍스트 재배열 방법을 제안하였으며 이를 통해 표의 텍스트 정보가 원래 의도된 문장으로 도출되는지 확인하였습니다. 1. 서론 문서 내에는 본문의 텍스트 정보뿐만 아니라 다양한 형태의 그림이나 표 등의 자료를 포함하고 있는 경우가 많습니다. 이러한 자료 중 표 내부..

DL/Computer Vision 2024.02.22

[Computer Vision] Methods of Classification and Character Recognitionfor Table Items through Deep Learning (2021) 리뷰 및 구현

1. 서론 문서 내 표 영역의 경우, 표 내부 항목명과 항목 내용을 인식하는 것은 업무 자동화를 위한 문서 처리 에 있어서 중요한 부분입니다. 하지만 OCR만을 통해서는 표 내부의 문자를 인식하는 것에만 국한되어있고, 해당 내용이 무슨 의미를 가지는지는 인식을하지 못합니다. 따라서 문서 인식을 수행한 후, 사람의 손으로 항목을 분류해야 한다는 불편함이 있으며, 표 영역 내 구분자는 문자 인식의 정확도를 떨어뜨리는 요인이 되기도 합니다. 본 논문에서는 딥러닝 신경망을 통해 표 항목 내의 문자를 인식하고, 이를 통해 문서를 디지털화하는 방법을 제안합니다. 먼저 스캔된 문서 이미지 파일에서 CNN을 통해 표 영역을 검출합니다. 그 후, 표 영역 내 수직선과 수평선의 구분자로 분리된 각 영역을 검출한 후, 각각..

DL/Computer Vision 2024.02.22

[Computer Vision] LayoutLM: Pre-training of Text and Layout for Document Image Understanding (2019) 리뷰

0. 요약 NLP 사전 학습 모델이 널리 사용되고 있지만, 대부분 텍스트에만 집중하고 문서 이미지 이해에 필수적인 레이아웃과 스타일 정보는 간과하고 있습니다. 본 논문에서는 스캔된 문서 이미지 전반에 걸쳐 텍스트와 레이아웃 그리고 이미지 정보를 고려한 joint 모델 LayoutLM을 제안합니다. (BERT + Fast R-CNN) LayoutLM이 문서 이미지 이해를 위해 텍스트와 레이아웃의 정보를 단일 프레임워크에서 학습하는 첫 번째 사례입니다. 이는 여러 Downstream task에서 최고 성능을 달성했습니다. form understanding (70.72 → 79.27) receipt understanding(94.02 → 95.24) document image classification (93..

DL/Computer Vision 2024.02.22

[Computer Vision] Document Layout Analysis (feat. OCR)

1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스럽게 인식할 수 있습니다. 하지만 OCR 기술은 단순히 글자만 인식할 뿐, 문서에 대해 자동으로 이해하고 각 글자들이 어떤 맥락에서 배치되어 있는지는 전혀 읽어내지 못합니다. 그래서 등장한 것이 Document Layout Analysis 기술입니다. 컴퓨터 비전(CV) 또는 자연어 처리(NLP)에서 사용하는 기술로, 주로 텍스트 문서내에서 관심 영역을 식별하고 분류하는 기술입니다. 이 기술은 문서의 레이아웃을 분석하여 텍스트, 이미지, 표, 그래프 등 다양한 요소를 구분하고, 이러한 요소들..

DL/Computer Vision 2024.02.22

[NLP]파이썬 re 모듈을 활용한 정규표현식

정규표현식? 정규표현식(Regular Expression 또는 Regex)은 문자열 패턴을 검색하고 조작하기 위해 쓰이는 형식 언어입니다. 주로 텍스트 처리 작업에서 사용되며, 특정 규칙에 맞는 문자열을 찾거나 변환하는 데에 유용합니다. 예를 들어, 이메일 주소, 전화번호, URL 등과 같은 특정 형식을 갖춘 문자열을 찾거나, 특정 단어나 패턴을 추출하거나 대체할 때 자주 사용됩니다. 메타 문자와 정규 문자 정규 표현식의 모든 문자는 메타 문자와 정규 문자 두가지로 분류됩니다. 메타 문자는 약속된 용법으로 사용되는 문자로, 특별한 의미를 가지고 있는 문자들을 의미합니다. 이러한 메타문자들은 특정 문자열 패턴을 찾거나 조작하는데 유용하게 쓰입니다. 정규 문자는 알파벳, 숫자 등 약속된 의미 없이 문자 그대..

DL/NLP 2024.01.12

[Project]문장 유형 분류 AI 경진대회

INTRO 평소에 NLP에 관심이 많아 프로젝트와 논문 공부를 하던 중 우연히 문장을 입력받아 문장의 ‘유형’, ‘시제’, ‘극성’, ‘확실성’을 예측하는 Text Multilabel Classfication Task의 DACON 문장 유형 분류 AI 경진 대회에 참가하게 됐습니다. 대회기간이 짧아 모델의 구조를 수정하기보다는 데이터의 품질을 향상시키고 여러 Pretrained모델 중 가장 성능이 잘나오는 몇개의 모델을 찾고자 했습니다. - 데이터 증강, 데이터 전처리 기법을 사용해 데이터셋의 품질과 양을 향상시켰습니다. - Pretrained 모델의 일부분을 얼리고 미세조정을 진행했습니다. - 여러 한국어 Pretrained 모델의 성능을 비교해보면서 성능이 좋은 모델들을 앙상블 했습니다. 이러한 과정..

Project 2023.03.07

[Project]한국 뉴스 감성분류, NER모델 Inference

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 감정 분류 모델 개발을 우선 진행하기로 했습니다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중입니다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 베타 버전으로 간..

Project 2023.02.15

[Project]한국 뉴스 NER 모델 개발 (feat. KCELECTRA)

INTRO https://mz-moonzoo.tistory.com/3 [Project]한국 광고 분류 모델 개발(1) Abstract 본 프로젝트는 뉴스 데이터를 분석하기 위한 전처리 과정에서 사용자가 원하지 않는 정보를 자동적으로 필터링하여 전처리 진행 속도와 정확도를 상승시키는 것을 목적으로 한다. 수집 mz-moonzoo.tistory.com 한국 광고 분류 모델의 경우 학습에 활용할 적당한 데이터셋이 없어서 직접 데이터 라벨링을 진행해야 하기 때문에 시간이 오래 걸리는 관계로 한국 광고 분류 모델 개발에 앞서 한국 경제 뉴스 기사 감정 분류 모델 개발을 우선 진행하기로 했다. 이것 외에도 한국 뉴스 NER 모델 개발도 진행 중이다. 최종 학습 모델과 학습 데이터셋을 사정상 따로 공개할 수 없어서 ..

Project 2023.02.15