论文:Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.
摘要
我们提出了一个自由式和开放式的视觉问答(VQA)任务。通过给定…
https://arxiv.org/pdf/2407.08707 Extracting Training Data from Document-Based VQA Models 1. 摘要
视觉语言模型(VLM)在基于文档的视觉问题解答(即回答以图像形式提供的输入文档内容的询问)方面取得了显著进展。在这项工作中…