← 데이터셋
TEXT텍스트·NLP공공·문서2025

Visually-rich Document Understanding : 2025 Samsung AI Challenge

주최삼성전자
참여242
상금2,100만원
과제문서 파싱·구조 추출(VrDU)

표·머리글·도표가 섞인 시각적으로 복잡한 문서 이미지를 입력받아, 각 영역의 텍스트와 레이아웃 구조(제목·표·문단)를 기계가 읽을 수 있게 파싱하는 문제다. OCR로 뽑은 토큰들을 의미 단위로 묶어 문서의 논리 구조를 복원한다.

무엇을 맞히나

과제
문서 파싱·구조 추출(VrDU)
예측 대상
스캔 문서 이미지에서 표·제목·문단의 위치와 텍스트 구조를 복원

데이터 스키마

컬럼타입설명
doc_idstring문서 페이지 고유 ID
ocr_tokenslist[string]OCR로 추출한 단어 토큰 시퀀스
bboxlist[float]각 토큰의 바운딩박스 좌표 [x0,y0,x1,y1]
block_typestring영역 유형(title·table·paragraph·header)
reading_orderint문서 내 논리적 읽기 순서
parse_targetstring정답 구조(계층형 마크업/JSON)