**摘要**:
4月27日,深圳格林实验室与上海交大联合发布UniDoc-RL视觉文档智能检索增强框架,在复杂文档理解任务中推理准确率提升17.7%。
**核心事实**:
1. **技术突破**:提出”由粗到细层级化动作空间”,包含搜索、甄选、感知三步推理
2. **核心创新**:密集多奖励强化学习机制,给每步动作单独打分(NDCG、IoU)
3. **arXiv编号**:arXiv:2604.14967
**技术影响**:多模态大模型在复杂文档理解领域的能力边界拓展;金融、医疗等文档密集型场景应用前景广阔。
**来源**:科技行者(4月28日)
Share this content: