基于多模态视觉-语言大模型,评测大语言模型对交通图像中动态重要细粒度信息的理解能力,支持交通事故责任自动判定。
涵盖交通事故场景的多种细粒度认知任务
计数问题
动作识别
文字识别
物体分析
物体识别
属性感知
信息摘要
空间推理
通过模拟人类的认知过程,基于多模态视觉-语言大模型,实现对动态视频中细粒度信息的理解。无需训练模型,而是学会记忆视频中的重要片段,及时回溯关键信息。
记忆增强型推理框架
视频输入与初步分析
Video Input & Initial Analysis
关键片段记忆存储
Key Segment Memory Storage
信息回溯与比对
Information Retrospection & Comparison
责任判定输出
Responsibility Judgment Output
跨机构合作研究
Jiangsu Normal University
Xiaoshi Huixing Technology
项目负责人:师威鹏
目前论文正在 IEEE Transactions on Intelligent Transportation Systems (T-ITS) 审稿中。论文接收后,我们将开放数据集和论文的下载链接。敬请期待!