投稿审核中 T-ITS

交通事故动态视频 数据集 TADV

基于多模态视觉-语言大模型,评测大语言模型对交通图像中动态重要细粒度信息的理解能力,支持交通事故责任自动判定。

1,386 视频
6,930 问答对
8 问题类型

数据集统计分析

基于真实标注数据

视频时长分布

问答复杂度分析

问题类型分布

模型性能对比

问题类型

涵盖交通事故场景的多种细粒度认知任务

Counting Problems

计数问题

Action Recognition

动作识别

OCR

文字识别

Object Analysis

物体分析

Object Recognition

物体识别

Attribute Perception

属性感知

Information Synopsis

信息摘要

Spatial Reasoning

空间推理

Memory-Enhanced Reasoning

记忆增强型推理算法

通过模拟人类的认知过程,基于多模态视觉-语言大模型,实现对动态视频中细粒度信息的理解。无需训练模型,而是学会记忆视频中的重要片段,及时回溯关键信息。

  • 类人自主观察图像中的细粒度重要信息
  • 拥有记忆与回溯、比对的能力
  • 无需训练即可实现动态视频理解

Memory-Enhanced Reasoning

记忆增强型推理框架

1

视频输入与初步分析

Video Input & Initial Analysis

2

关键片段记忆存储

Key Segment Memory Storage

3

信息回溯与比对

Information Retrospection & Comparison

4

责任判定输出

Responsibility Judgment Output

研究团队

跨机构合作研究

JSNU

江苏师范大学

Jiangsu Normal University

XSH

小狮彗行公司

Xiaoshi Huixing Technology

项目负责人:师威鹏

获取数据集与论文

论文投稿中 - T-ITS

目前论文正在 IEEE Transactions on Intelligent Transportation Systems (T-ITS) 审稿中。论文接收后,我们将开放数据集和论文的下载链接。敬请期待!