표·머리글·도표가 섞인 시각적으로 복잡한 문서 이미지를 입력받아, 각 영역의 텍스트와 레이아웃 구조(제목·표·문단)를 기계가 읽을 수 있게 파싱하는 문제다. OCR로 뽑은 토큰들을 의미 단위로 묶어 문서의 논리 구조를 복원한다.
| 컬럼 | 타입 | 설명 |
|---|---|---|
doc_id | string | 문서 페이지 고유 ID |
ocr_tokens | list[string] | OCR로 추출한 단어 토큰 시퀀스 |
bbox | list[float] | 각 토큰의 바운딩박스 좌표 [x0,y0,x1,y1] |
block_type | string | 영역 유형(title·table·paragraph·header) |
reading_order | int | 문서 내 논리적 읽기 순서 |
parse_target | string | 정답 구조(계층형 마크업/JSON) |