2024/02 12

[Computer Vision] Extraction of Table Text Information in Documents Using Deep Learning Object Detection (2023)

0. 요약 본 논문에서는 딥러닝 객체 인식을 기반으로 한글 문서 내 표 및 박스의 텍스트 정보를 추출하고 이를 재배열하여 문장화하는 방안을 제시하였습니다. 객체 감지 모델 Yolo를 통해 추출한 문서 내 표 및 박스의 좌표 정보를 토대로 OpenCV와 Google Cloud Platform의 Vision API를 적용하여 문서로부터 표 및 박스 이미지를 분리하고 텍스트를 감지하였습니다. 추출한 표 및 박스 내 텍스트를 문장화하기 위한 규칙 기반의 텍스트 재배열 방법을 제안하였으며 이를 통해 표의 텍스트 정보가 원래 의도된 문장으로 도출되는지 확인하였습니다. 1. 서론 문서 내에는 본문의 텍스트 정보뿐만 아니라 다양한 형태의 그림이나 표 등의 자료를 포함하고 있는 경우가 많습니다. 이러한 자료 중 표 내부..

DL/Computer Vision 2024.02.22

[Computer Vision] Methods of Classification and Character Recognitionfor Table Items through Deep Learning (2021) 리뷰 및 구현

1. 서론 문서 내 표 영역의 경우, 표 내부 항목명과 항목 내용을 인식하는 것은 업무 자동화를 위한 문서 처리 에 있어서 중요한 부분입니다. 하지만 OCR만을 통해서는 표 내부의 문자를 인식하는 것에만 국한되어있고, 해당 내용이 무슨 의미를 가지는지는 인식을하지 못합니다. 따라서 문서 인식을 수행한 후, 사람의 손으로 항목을 분류해야 한다는 불편함이 있으며, 표 영역 내 구분자는 문자 인식의 정확도를 떨어뜨리는 요인이 되기도 합니다. 본 논문에서는 딥러닝 신경망을 통해 표 항목 내의 문자를 인식하고, 이를 통해 문서를 디지털화하는 방법을 제안합니다. 먼저 스캔된 문서 이미지 파일에서 CNN을 통해 표 영역을 검출합니다. 그 후, 표 영역 내 수직선과 수평선의 구분자로 분리된 각 영역을 검출한 후, 각각..

DL/Computer Vision 2024.02.22

[Computer Vision] LayoutLM: Pre-training of Text and Layout for Document Image Understanding (2019) 리뷰

0. 요약 NLP 사전 학습 모델이 널리 사용되고 있지만, 대부분 텍스트에만 집중하고 문서 이미지 이해에 필수적인 레이아웃과 스타일 정보는 간과하고 있습니다. 본 논문에서는 스캔된 문서 이미지 전반에 걸쳐 텍스트와 레이아웃 그리고 이미지 정보를 고려한 joint 모델 LayoutLM을 제안합니다. (BERT + Fast R-CNN) LayoutLM이 문서 이미지 이해를 위해 텍스트와 레이아웃의 정보를 단일 프레임워크에서 학습하는 첫 번째 사례입니다. 이는 여러 Downstream task에서 최고 성능을 달성했습니다. form understanding (70.72 → 79.27) receipt understanding(94.02 → 95.24) document image classification (93..

DL/Computer Vision 2024.02.22

[Computer Vision] Document Layout Analysis (feat. OCR)

1. Document Layout Analysis? 사람이 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 문서 내 정보에 대해 자연스럽게 인식할 수 있습니다. 하지만 OCR 기술은 단순히 글자만 인식할 뿐, 문서에 대해 자동으로 이해하고 각 글자들이 어떤 맥락에서 배치되어 있는지는 전혀 읽어내지 못합니다. 그래서 등장한 것이 Document Layout Analysis 기술입니다. 컴퓨터 비전(CV) 또는 자연어 처리(NLP)에서 사용하는 기술로, 주로 텍스트 문서내에서 관심 영역을 식별하고 분류하는 기술입니다. 이 기술은 문서의 레이아웃을 분석하여 텍스트, 이미지, 표, 그래프 등 다양한 요소를 구분하고, 이러한 요소들..

DL/Computer Vision 2024.02.22

[ML] 머신러닝 기초 (5) Linear Regression. 회귀 실습

https://mz-moonzoo.tistory.com/52 [ML] 머신러닝 기초 (4) Linear Regression 회귀 이론 https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 mz-moonzoo.tistory.com 선형 회귀의 이론을 포스팅하고 실습 강의 리뷰는 굳이 하지 않으려했지만 간단하게 코드 리뷰를 해보겠습니다. 실습 강의 및 코드는 메타코드 링크에서 받아보실 수 있습니다. https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드..

ML 2024.02.19

[ML] 머신러닝 기초 (4) Linear Regression 회귀 이론

https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 머신러닝 강의를 들으면서 내용을 정리하고 있습니다. 현재 무료로 강의를 보실 수 있으니 궁금하신 부분은 강의를 수강하시면 좋을 것 같습니다. 아! 그리고 실습은 제가 머신러닝 이론에 대해서 학부과정에 배웠던 내용을 리마인드 하고자 강의를 듣고 있는 것이라 실습 관련된 포스팅은 진행하지 않습니다. 실습을 원하시는 분들은 강의를 듣고 직접 따라서 해보시는 것을 추천드립니다! Linear Regression 차수를 높인 다항회귀 역시 선형 회귀로 봅..

ML 2024.02.15

[ML] 머신러닝 기초 (3) 머신러닝 기본 수학 이론

https://mcode.co.kr/video/list2?viewMode=view&idx=21 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 이전 ML 카테고리의 포스팅에 이어 머신러닝 강의를 들으면서 내용을 정리하고 있습니다. 현재 무료로 강의를 보실 수 있으니 궁금하신 부분은 강의를 수강하시면 좋을 것 같습니다. 함수 두 집합 사이의 관계 혹은 규칙 y = f(x)의 식으로 표현, 이 때의 x는 입력값, y는 출력값 일차 함수 y가 x에 대한 일차식으로 표현된 경우 y = ax + b (a != 0) a를 기울기, b를 절편이라고 표현 이차 함수 y가 x에대한 이차식으로 표현된 경우 y=a(x-p)^2 +q(a!=..

ML 2024.02.14

[AI Tech] AICC(컨텍센터)에서 인바운드와 아웃바운드란?

https://mz-moonzoo.tistory.com/48 [AI Tech] AICC 아키텍처, VoIP Infra, AI 시스템 구성. AICC는 인공 지능(AI) 기술을 활용하여 고객 서비스를 자동화하고 최적화하는 최신 콜센터 솔루션입니다. AI, 머신러닝, 자연어 처리(NLP) 등의 기술을 통해 고객의 요구를 예측하고, 개인화된 서비 mz-moonzoo.tistory.com 이전 포스팅에서 AICC 아키텍처에 대해 작성했는데요, 해당 아키텍처에 대한 프로세스는 인바운드에 초점을 맞춰서 작성했습니다. 이번 포스팅에선 AICC에서 인바운드와 아웃바운드가 무엇인지에 대해 작성하고자 합니다. AICC 인바운드 AICC에서 인바운드란 인공지능(AI)을 활용하여 인바운드 통화(고객이 직접 전화를 걸어오는 경..

AI Tech 2024.02.14

[AI Tech] chatGPT API 사용방법 feat. Python

파이썬에서 chatGPT API를 사용하기 위해선 API Key를 발급받고 등록하면 끝이 아닙니다. 카드 등록 등 여러 과정을 추가로 진행해야 합니다. chatGPT API를 사용하기 위해 웹서핑을 하면서 찾은 정보를 작성하겠습니다. chatGPT API 사용방법 1. OpenAI 계정 생성 및 API 키 발급 계정 생성: OpenAI 웹사이트에 접속하여 계정을 생성합니다. API 키 획득: 계정 대시보드에서 API 키를 생성합니다. 이 키는 API 요청을 인증하는 데 사용됩니다. 먼저 Openai API 사이트에 들어가신후 회원 가입을 합니다. 회원 가입이 완료되면 https://platform.openai.com/api-keys링크에서 API Key를 발급 받을 수 있습니다. 발급 받으신 키는 다시 ..

AI Tech 2024.02.14

[AI Tech] AICC 아키텍처, VoIP Infra, AI 시스템 구성.

AICC는 인공 지능(AI) 기술을 활용하여 고객 서비스를 자동화하고 최적화하는 최신 콜센터 솔루션입니다. AI, 머신러닝, 자연어 처리(NLP) 등의 기술을 통해 고객의 요구를 예측하고, 개인화된 서비스를 제공합니다. AICC는 기존 IPCC에 AI 기술을 접목한 것인데, VoIP 인프라부터 AI 시스템까지의 AICC 전체적인 아키텍처에 대해 아래 아리시스 AICC 구성도를 바탕으로 정리해보도록 하겠습니다. (VoIP 인프라의 아키텍처를 그나마 포함한 구성도가 이것 뿐이라...) VoIP Infra VoIP Infra에서는 고객의 전화에서 아리시스 PBX까지의 통화 경로를 설명합니다. 1. 고객의 전화 (010-XXXX-XXXX) → PSTN(15XX-15XX) 과정: 고객이 자신의 휴대폰(010-xx..

AI Tech 2024.02.13