DL/Computer Vision

[Computer Vision] Extraction of Table Text Information in Documents Using Deep Learning Object Detection (2023)

moonzoo 2024. 2. 22. 11:11

0. 요약

본 논문에서는 딥러닝 객체 인식을 기반으로 한글 문서 내 표 및 박스의 텍스트 정보를 추출하고 이를 재배열하여 문장화하는 방안을 제시하였습니다.

 

객체 감지 모델 Yolo를 통해 추출한 문서 내 표 및 박스의 좌표 정보를 토대로 OpenCV와 Google Cloud Platform의 Vision API를 적용하여 문서로부터 표 및 박스 이미지를 분리하고 텍스트를 감지하였습니다.

 

추출한 표 및 박스 내 텍스트를 문장화하기 위한 규칙 기반의 텍스트 재배열 방법을 제안하였으며 이를 통해 표의 텍스트 정보가 원래 의도된 문장으로 도출되는지 확인하였습니다.

1. 서론

문서 내에는 본문의 텍스트 정보뿐만 아니라 다양한 형태의 그림이나 표 등의 자료를 포함하고 있는 경우가 많습니다. 이러한 자료 중 표 내부의 텍스트를 항목 단위로 인식하는 것은 문서 처리 자동화에서 중요한 부분입니다.

 

OCR의 활용으로 문서 내 텍스트 정보 인식은 가능하지만, 텍스트의 맥락적 의미를 제시하는 것은 아닙니다. 따라서 문서 내 표에 담겨있는 정보들을 효과적으로 활용하기 위해서는 본문 내용과 표부분의 내용을 구분하고 맥락적 텍스트 정보를 추출하는 과정이 중요하다.

2. 선행연구

최근 문서 분석과 관련하여 문서 이미지 내 표를 검출하거나 표 문자를 인식하는 몇몇 선행 연구들이 수행되고 있습니다.

 

“Methods of Classification and Character Recognition for Table Items through Deep Learning(2021)”

문서 내 표 항목 문자 인식률을 높이기 위해 표 항목을 분류하여 문자를 인식하는 논문

 

“Improving Accuracy of Table Detection in Document Image using Loss Compensation Faster R-CNN”

 

“TableBank: Table Benchmark for Image-based Table Detection and Recognition”

문서 내 표 검출 정확도를 향상하기 위해 연구에서 제안한 모듈과 Faster R-CNN 모듈 간의 성능을 비교하는 연구

 

하지만 문서 내 의미 있는 표 정보를 활용하기 위해 텍스트를 추출하고 이를 문장화하는 연구 사례는 미흡했습니다. 이에 본 연구에서는 문서 내 표 텍스트 추출 결과를 자동으로 문장화하기 위한 규칙 기반의 텍스트 재배열 방법을 제시합니다.

3. 실험

딥러닝 객체 감지 기반 표 이미지 및 텍스트 추출 방법

 

아래 그림 1과 같이 한글 문서 내 표 텍스트 추출 결과를 규칙기반으로 재배열하여 문장화하는 방법을 제안하기 위한 다음과 같은 작업을 수행했습니다.

  1. 딥러닝 객체 감지 기반 표 추출 모듈을 활용하여 문서 내 표와 박스 이미지를 기존 문서 이미지와 분리하여 저장하는 작업
  2. 다양한 표 형태를 포함한 건설 분야입찰문서(한글파일, hwp)로부터 2,000장의 이미지 준비
  3. 객체 감지 모델인 Yolo가 각 이미지에 포함된 표 및 박스 객체를 인식하도록 학습
  4. 학습된 표 검출 Yolo 모델은 표 객체의 종류와 좌표 정보를 제공합니다. 문서 내 표 내부의 텍스트 정보만 추출하기위해 표 검출 딥러닝 모델 결과를 Open CV로 전달해 표 영역만 구분
  5. 표 영역 이미지에 대해서만 Google Cloud Platform의 Vision API를 적용하여 표 내부의 텍스트를인식

4. 실험결과

딥러닝 및 규칙 기반 표 텍스트 모듈을 통해 추출한 표 및 박스 내 텍스트와 각각의 좌표 정보를 활용하여 규칙 기반의 텍스트 정보 재배열 작업을 수행하였습니다.

 

텍스트의 x, y 좌표를 기반으로 인접한 좌표 순서대로 텍스트를 연결하여 자동으로 문장화시키는 규칙을 작성했습니다. 표 및 박스 이미지 단위로 추출된 텍스트를 규칙 기반으로 재배열 및 문장화 한 결과, 원문 문장과 동일한 형태로 문장이 생성됨을 확인하였습니다.

 

5. 결론

본 연구는 한글 문서내 의미 있는 내용을 담은 표나 박스 정보를 문서의 본문 내용과 구분하여 텍스트를 추출하고 자동으로 문장을 생성함으로써 문서 내 표 정보를 활용할 수 있다는 점에서 의의가 있습니다.

 


마치며...

해당 논문에서는 표에서 추출된 텍스트를 규칙 기반으로 재배열하여 문장화 했습니다.

 

그러나,특정 Task에선 표의 셀 단위의 텍스트를 재배열하는 것이 필요합니다.

 

“Methods of Classification and Character Recognition for Table Items through Deep Learning”에서 표의 각 영역을 검출하는 방법을 제안했는데, 이 방법과 본 논문의 규칙 기반으로 텍스트를 재배열하는 방법을 함께 적용하면 OCR 모델의 정확도를 향상 시킬 수 있을 것이라 기대합니다.