多模态
# 多模态
# 多模态推理
# 相关工作调研
Learn to Explain
(NIPS-22)
提出多模态推理数据集
Multimodal-CoT
[2302.00923] Multimodal Chain-of-Thought Reasoning in Language Models (arxiv.org) (opens new window)
首先对多模态模型进行微调以生成思想链,然后对理性进行推理以获得最终答案。然而,它受到推理过程线性的限制,并且在不同模态之间的交互方面存在困难。
TSciQ
采取了基于知识提炼的方法。TSciQ从LLMS生成高质量的COT原理作为微调信号,并引入了一种新的数据混合策略来为不同的问题产生有效的样本。
Graph-of-Thought
为了缓解多模式CoT遇到的挑战,(提出了思维图(GoT),将思维过程建模为图。它将推理链解析为思维图,通过捕捉非序列信息交互,可以更真实地表示思维过程。该措施通过图形结构打破了线性结构的局限性,进一步提高了性能。
VCoT
HoT🚶♂️
提出了思维超图(HoT),用超图代替思维图,使模型具有更好的高阶多跳推理和多模态比较判断能力。
DDCoT (NIPS-23)
MaTCR
(MM-23)
ToMT
利用思维链进行视频推理仍然是一个未开发的领域,只有少数研究。CoMT视频推理中的快速思维和慢速思维相结合,引入了一种用于规划的树搜索策略,首次将CoT应用于视频多模态推理。虽然一些工作已经开始利用思维链推理和解决多模态推理任务,但以前的工作只关注如何构建高质量的微调数据,仍然存在一些挑战
# 数据集
# ScienceQA
ScienceQA是第一个大规模多模态科学问题数据集,用详细的讲座和解释注释答案。它包含21k个多模态选择题,具有丰富的领域多样性,涵盖3个主题、26个主题、127个类别和379项技能。基准数据集分为训练、验证和测试三部分,分别包含12726、4241和4241个示例。