TEXT텍스트·NLP공공·문서2025

Visually-rich Document Understanding : 2025 Samsung AI Challenge

주최삼성전자

참여242명

상금2,100만원

과제문서 파싱·구조 추출(VrDU)

토큰 가중치 (상위 10)

표0.97

합계0.91

항목0.88

단위0.84

제목0.82

구분0.79

금액0.76

번호0.71

비고0.68

행0.64

문서 길이 분포

짧음길이 →긺

표·머리글·도표가 섞인 시각적으로 복잡한 문서 이미지를 입력받아, 각 영역의 텍스트와 레이아웃 구조(제목·표·문단)를 기계가 읽을 수 있게 파싱하는 문제다. OCR로 뽑은 토큰들을 의미 단위로 묶어 문서의 논리 구조를 복원한다.

무엇을 맞히나

컬럼	타입	설명
`doc_id`	string	문서 페이지 고유 ID
`ocr_tokens`	list[string]	OCR로 추출한 단어 토큰 시퀀스
`bbox`	list[float]	각 토큰의 바운딩박스 좌표 [x0,y0,x1,y1]
`block_type`	string	영역 유형(title·table·paragraph·header)
`reading_order`	int	문서 내 논리적 읽기 순서
`parse_target`	string	정답 구조(계층형 마크업/JSON)