论文:Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.
摘要
我们提出了一个自由式和开放式的视觉问答(VQA)任务。通过给定…
https://arxiv.org/pdf/2407.08707 Extracting Training Data from Document-Based VQA Models 1. 摘要
视觉语言模型(VLM)在基于文档的视觉问题解答(即回答以图像形式提供的输入文档内容的询问)方面取得了显著进展。在这项工作中…
VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2019
文章地址:http://ceur-ws.org/Vol-2380/paper_272.pdf
Abstract This paper presents an overview of the Medical Visual Question Answering task (VQA-Med) at Image CLEF…
VQA parper的阅读
Medical Visual Question Answering: A Survey
收集和讨论了公开可用的医疗VQA数据集的最新数据源、数据数量和任务特征。回顾了在医疗VQA任务中使用的方法(技术、创新和性能的改进)。分析了该领域的一些医学特定挑战,并讨…
笔者小白,初学VQA,如有不对之处还请指教。
mmf是什么?官方提供的README中是这么说的:
MMF is a modular framework for vision and language multimodal research from Facebook AI Research. MMF contains reference implement…