XZ Blog XZ Blog
首页
  • 人体姿态估计
  • 2D-3D-Lifting
  • 动作质量评估
  • 基于RGBD视觉信息的异常行为识别
  • 基于RGB视频的行为识别
  • 大模型应用
  • 网络结构

    • Transformer
    • GCN
    • Graph Transformers
    • Diffusion Model
  • 深度学习
  • 论文解读
  • 后端开发
  • Git
  • 博客搭建
  • Debug
  • 面试
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

xzhouzeng

@渐行。
首页
  • 人体姿态估计
  • 2D-3D-Lifting
  • 动作质量评估
  • 基于RGBD视觉信息的异常行为识别
  • 基于RGB视频的行为识别
  • 大模型应用
  • 网络结构

    • Transformer
    • GCN
    • Graph Transformers
    • Diffusion Model
  • 深度学习
  • 论文解读
  • 后端开发
  • Git
  • 博客搭建
  • Debug
  • 面试
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 人体姿态估计

  • 动作质量评估

  • 基于骨骼的行为识别

  • 基于RGB视频的行为识别

  • 大模型应用

  • 网络架构

  • 视频生成

  • NLP

  • 多模态

    • 多模态
      • 多模态推理
        • 相关工作调研
        • 数据集
        • ScienceQA
  • 视频理解

  • 文档
  • 多模态
xzhouzeng
2023-11-09
目录

多模态

# 多模态

# 多模态推理

# 相关工作调研

  1. Learn to Explain (NIPS-22)

    [2209.09513] Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering (arxiv.org) (opens new window)

    提出多模态推理数据集

  2. Multimodal-CoT

    [2302.00923] Multimodal Chain-of-Thought Reasoning in Language Models (arxiv.org) (opens new window)

    首先对多模态模型进行微调以生成思想链,然后对理性进行推理以获得最终答案。然而,它受到推理过程线性的限制,并且在不同模态之间的交互方面存在困难。

  3. TSciQ

    [2305.03453] T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering (arxiv.org) (opens new window)

    采取了基于知识提炼的方法。TSciQ从LLMS生成高质量的COT原理作为微调信号,并引入了一种新的数据混合策略来为不同的问题产生有效的样本。

  4. Graph-of-Thought

    [2305.16582] Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large Language Models (arxiv.org) (opens new window)

    为了缓解多模式CoT遇到的挑战,(提出了思维图(GoT),将思维过程建模为图。它将推理链解析为思维图,通过捕捉非序列信息交互,可以更真实地表示思维过程。该措施通过图形结构打破了线性结构的局限性,进一步提高了性能。

  5. VCoT

    [2305.02317] Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings (arxiv.org) (opens new window)

  6. HoT🚶‍♂️

    [2308.06207] Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals (arxiv.org) (opens new window)

    提出了思维超图(HoT),用超图代替思维图,使模型具有更好的高阶多跳推理和多模态比较判断能力。

  7. DDCoT (NIPS-23)

    [2310.16436] DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models (arxiv.org) (opens new window)

  8. MaTCR (MM-23)

    MaTCR: Modality-Aligned Thought Chain Reasoning for Multimodal Task-Oriented Dialogue Generation (acm.org) (opens new window)

  9. ToMT

    [2308.09658] Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning (arxiv.org) (opens new window)

    利用思维链进行视频推理仍然是一个未开发的领域,只有少数研究。CoMT视频推理中的快速思维和慢速思维相结合,引入了一种用于规划的树搜索策略,首次将CoT应用于视频多模态推理。虽然一些工作已经开始利用思维链推理和解决多模态推理任务,但以前的工作只关注如何构建高质量的微调数据,仍然存在一些挑战

# 数据集

# ScienceQA

ScienceQA是第一个大规模多模态科学问题数据集,用详细的讲座和解释注释答案。它包含21k个多模态选择题,具有丰富的领域多样性,涵盖3个主题、26个主题、127个类别和379项技能。基准数据集分为训练、验证和测试三部分,分别包含12726、4241和4241个示例。

编辑 (opens new window)
代码生成
Video2Script

← 代码生成 Video2Script→

最近更新
01
VideoLLMs
03-20
02
Video2Script
12-07
03
LLM-Agents
10-08
更多文章>
Theme by Vdoing | Copyright © 2022-2024 xzhouzeng | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式