XZ Blog XZ Blog
首页
  • 人体姿态估计
  • 2D-3D-Lifting
  • 动作质量评估
  • 基于RGBD视觉信息的异常行为识别
  • 基于RGB视频的行为识别
  • 大模型应用
  • 网络结构

    • Transformer
    • GCN
    • Graph Transformers
    • Diffusion Model
  • 深度学习
  • 论文解读
  • 后端开发
  • Git
  • 博客搭建
  • Debug
  • 面试
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

xzhouzeng

@渐行。
首页
  • 人体姿态估计
  • 2D-3D-Lifting
  • 动作质量评估
  • 基于RGBD视觉信息的异常行为识别
  • 基于RGB视频的行为识别
  • 大模型应用
  • 网络结构

    • Transformer
    • GCN
    • Graph Transformers
    • Diffusion Model
  • 深度学习
  • 论文解读
  • 后端开发
  • Git
  • 博客搭建
  • Debug
  • 面试
  • 实用技巧
  • 友情链接
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 人体姿态估计

  • 动作质量评估

  • 基于骨骼的行为识别

  • 基于RGB视频的行为识别

  • 大模型应用

  • 网络架构

  • 视频生成

  • NLP

  • 多模态

  • 视频理解

    • Video2Script
      • 基本概念
      • 文献调研
      • 相关工作
      • 其他工作
    • VideoLLMs
  • 文档
  • 视频理解
xzhouzeng
2023-12-07
目录

Video2Script

# Video2Script

# 基本概念

# 文献调研

  • VideoChat

    [2305.06355] VideoChat: Chat-Centric Video Understanding (opens new window)

    【双流:逐帧+视频】

  • MVBench(VideoChat2)

    [2311.17005] MVBench: A Comprehensive Multi-modal Video Understanding Benchmark (opens new window)

  • Dolphin

    GitHub - kaleido-lab/dolphin: General video interaction platform based on LLMs, including Video ChatGPT (opens new window)

    【开源项目】

# 相关工作

# 其他工作

  • GRiT

    [2212.00280] GRiT: A Generative Region-to-text Transformer for Object Understanding (arxiv.org) (opens new window)

  • Dense Video Object Captioning from Disjoint Supervision

    [2306.11729] Dense Video Object Captioning from Disjoint Supervision (arxiv.org) (opens new window)

  • A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video

    [2312.01575] A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video (arxiv.org) (opens new window)

  • Vid2Seq(CVPR-23)

    [2302.14115] Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning (arxiv.org) (opens new window)

  • VidChapters-7M(NIPS-23)

    [2309.13952] VidChapters-7M: Video Chapters at Scale (arxiv.org) (opens new window)

编辑 (opens new window)
多模态
VideoLLMs

← 多模态 VideoLLMs→

最近更新
01
VideoLLMs
03-20
02
多模态
11-09
03
LLM-Agents
10-08
更多文章>
Theme by Vdoing | Copyright © 2022-2024 xzhouzeng | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式