DL/Computer Vision 13

[Computer Vision] Extraction of Table Text Information in Documents Using Deep Learning Object Detection (2023)

0. 요약 본 논문에서는 딥러닝 객체 인식을 기반으로 한글 문서 내 표 및 박스의 텍스트 정보를 추출하고 이를 재배열하여 문장화하는 방안을 제시하였습니다. 객체 감지 모델 Yolo를 통해 추출한 문서 내 표 및 박스의 좌표 정보를 토대로 OpenCV와 Google Cloud Platform의 Vision API를 적용하여 문서로부터 표 및 박스 이미지를 분리하고 텍스트를 감지하였습니다. 추출한 표 및 박스 내 텍스트를 문장화하기 위한 규칙 기반의 텍스트 재배열 방법을 제안하였으며 이를 통해 표의 텍스트 정보가 원래 의도된 문장으로 도출되는지 확인하였습니다. 1. 서론 문서 내에는 본문의 텍스트 정보뿐만 아니라 다양한 형태의 그림이나 표 등의 자료를 포함하고 있는 경우가 많습니다. 이러한 자료 중 표 내부..

DL/Computer Vision 2024.02.22

[Computer Vision] Methods of Classification and Character Recognitionfor Table Items through Deep Learning (2021) 리뷰 및 구현

1. 서론 문서 내 표 영역의 경우, 표 내부 항목명과 항목 내용을 인식하는 것은 업무 자동화를 위한 문서 처리 에 있어서 중요한 부분입니다. 하지만 OCR만을 통해서는 표 내부의 문자를 인식하는 것에만 국한되어있고, 해당 내용이 무슨 의미를 가지는지는 인식을하지 못합니다. 따라서 문서 인식을 수행한 후, 사람의 손으로 항목을 분류해야 한다는 불편함이 있으며, 표 영역 내 구분자는 문자 인식의 정확도를 떨어뜨리는 요인이 되기도 합니다. 본 논문에서는 딥러닝 신경망을 통해 표 항목 내의 문자를 인식하고, 이를 통해 문서를 디지털화하는 방법을 제안합니다. 먼저 스캔된 문서 이미지 파일에서 CNN을 통해 표 영역을 검출합니다. 그 후, 표 영역 내 수직선과 수평선의 구분자로 분리된 각 영역을 검출한 후, 각각..

DL/Computer Vision 2024.02.22

[Computer Vision] LayoutLM: Pre-training of Text and Layout for Document Image Understanding (2019) 리뷰

0. 요약 NLP 사전 학습 모델이 널리 사용되고 있지만, 대부분 텍스트에만 집중하고 문서 이미지 이해에 필수적인 레이아웃과 스타일 정보는 간과하고 있습니다. 본 논문에서는 스캔된 문서 이미지 전반에 걸쳐 텍스트와 레이아웃 그리고 이미지 정보를 고려한 joint 모델 LayoutLM을 제안합니다. (BERT + Fast R-CNN) LayoutLM이 문서 이미지 이해를 위해 텍스트와 레이아웃의 정보를 단일 프레임워크에서 학습하는 첫 번째 사례입니다. 이는 여러 Downstream task에서 최고 성능을 달성했습니다. form understanding (70.72 → 79.27) receipt understanding(94.02 → 95.24) document image classification (93..

DL/Computer Vision 2024.02.22

[Computer Vision] Document Layout Analysis (feat. OCR)

1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스럽게 인식할 수 있습니다. 하지만 OCR 기술은 단순히 글자만 인식할 뿐, 문서에 대해 자동으로 이해하고 각 글자들이 어떤 맥락에서 배치되어 있는지는 전혀 읽어내지 못합니다. 그래서 등장한 것이 Document Layout Analysis 기술입니다. 컴퓨터 비전(CV) 또는 자연어 처리(NLP)에서 사용하는 기술로, 주로 텍스트 문서내에서 관심 영역을 식별하고 분류하는 기술입니다. 이 기술은 문서의 레이아웃을 분석하여 텍스트, 이미지, 표, 그래프 등 다양한 요소를 구분하고, 이러한 요소들..

DL/Computer Vision 2024.02.22

[Computer Vision] StyleGAN: A Style-Based Generator Architecture for GANs 논문 리뷰 및 구현 (2)

이전 글 StyleGAN 논문 리뷰에 이어서 간단하게 StyleGAN을 구현해보고자 합니다. https://mz-moonzoo.tistory.com/21 [DL-Papers] StyleGAN: A Style-Based Generator Architecture for GANs 논문 리뷰 및 구현 (1) 이번에 소개할 논문은 A Style-Based Generator Architecture for Generative Adversarial Networks으로 StyleGAN으로 자연스러운 고해상도 이미지를 만들면서 많이 알려지게 된 논문입니다. 저희 학회 컨퍼런스에서 함 mz-moonzoo.tistory.com StyleGAN 구현 StyleGAN은 기존의 PGGAN 구조에 Style transfer 개념을 ..

DL/Computer Vision 2023.02.10

[Computer Vision] StyleGAN: A Style-Based Generator Architecture for GANs 논문 리뷰 및 구현 (1)

이번에 소개할 논문은 A Style-Based Generator Architecture for Generative Adversarial Networks으로 StyleGAN으로 자연스러운 고해상도 이미지를 만들면서 많이 알려지게 된 논문입니다. 저희 학회 컨퍼런스에서 함께 진행한 논문 스터디이기 때문에 팀원인 https://rahites.tistory.com/85?category=1083611의 글에서 조금 수정해서 작성하도록 하겠습니다. StyleGAN ( A Style-Based Generator Architecture for Generative Adversarial Networks ) Abstract [제안한 네트워크] StyleGAN은 기존의 PGGAN 구조에 Style transfer 개념을 적용..

DL/Computer Vision 2023.02.10

[Computer Vision] Cycle GAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 논문 리뷰 및 구현 (2)

https://mz-moonzoo.tistory.com/18 [DL-Papers] Cycle GAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 논문 리뷰 및 구현 ≒Paper: https://arxiv.org/abs/1703.10593 0. Abstarct Image-to-image translation은 pair-image를 이용해 입력이미지와 출력 이미지 간의 매핑을 학습합니다. 그러나 많은 task의 경우 pair-image를 이루는 훈련 데이터를 mz-moonzoo.tistory.com 이전 글 CycleGAN 논문 리뷰입니다. 이론적인 부분을 참고하시면 될 것 같습니다. CycleGAN 논문 구..

DL/Computer Vision 2023.01.25

[Computer Vision] Cycle GAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 논문 리뷰 및 구현 (1)

≒Paper: https://arxiv.org/abs/1703.10593 0. Abstarct Image-to-image translation은 pair-image를 이용해 입력이미지와 출력 이미지 간의 매핑을 학습합니다. 그러나 많은 task의 경우 pair-image를 이루는 훈련 데이터를 구하기가 어렵습니다. 그래서 이 논문(Cycle-GAN)에서는 pair image를 이루는 데이터가 없을 때 원본 도메인 X에서 대상 도메인 Y로 이미지 번역하는 방법을 학습하는 방법을 제시합니다. 여러가지 이전 방법과 비교 해봤을 때, Cycle-GAN의 접근 방식은 우수성을 보여줍니다. 1. Introduction pair-image를 이루는 훈련 데이터를 구하기가 어렵고 비용이 많이 들 수 있습니다. 논문에서..

DL/Computer Vision 2023.01.20

[Computer Vision] GAN(Generative Adversarial Nets) 논문 리뷰 및 구현 (2)

이전글 ) GAN 논문 리뷰 [DL-Papers] GAN(Generative Adversarial Nets) 논문 리뷰 및 구현 (1) 지금까지 논문 스터디 학회 활동과 개인적으로 정리했던 논문들을 하나씩 올려보려고합니다. 과거에 정리한 글을 올리면서 잊어버렸던 내용을 상기시키면서 조금씩 부족한 부분을 최대한 수정 mz-moonzoo.tistory.com GAN 요약 G: Generative model GAN은 생성모델로 이미지, 음성, sequentail data등 원하는 형태의 데이터를 만드는 모델이다. Discriminative model을 상대로 완벽하게 속이고자 한다. -> training data의 분포를 모사함 D: Discriminative model 실제 데이터와 생성 모델이 만들어낸 데..

DL/Computer Vision 2023.01.17

[Computer Vision] GAN(Generative Adversarial Nets) 논문 리뷰 및 구현 (1)

지금까지 논문 스터디 학회 활동과 개인적으로 정리했던 논문들을 하나씩 올려보려고합니다. 과거에 정리한 글을 올리면서 잊어버렸던 내용을 상기시키면서 조금씩 부족한 부분을 최대한 수정해 글을 올리겠습니다. 과거에 정리했던 논문인지라 부족한점이 많을 수 있어 부족한 부분은 알려주시면 감사하겠습니다. 0. Abstract ● 2가지 모델을 훈련시켜 적대적인 프로세스(경쟁)을 통해 generative model을 평가하는 새로운 프레임워크를 제안 여기서 말하는 2가지 모델은 Generative model(G)와 Discriminative model(D)이다. Traning data의 분포를 모사해 데이터를 제공하는 G와 해당 데이터가 G가 만든것인지, 원본인지 판별하는 D이다. G는 D가 실수할 확률을 높이는 방..

DL/Computer Vision 2023.01.17