Three-Stage Roadmap
第一层 · 视觉大模型
感知层。把视频和图像变成可用的结构化数据。
超长视频理解
支持数小时至数十小时的连续视频分析
多目标识别与追踪
单体 + 群体目标同时分析
行为识别
动作、状态、活跃度、群体行为全维度识别
异常检测
偏离基线状态的自动识别与告警
无声视频理解
仅基于画面理解,不依赖音频
结构化数据输出
JSON / 时间轴标注 / 报表 / API 数据
第二层 · 视觉世界模型
推演层。让 AI 在感知之上,构建对世界动态演化的内部表征。
时序动态建模
视频中事件、行为、状态的时序关联建模
行为前置预警
从"识别异常"到"预测异常"
场景演化推理
基于已观察画面推断未观察画面
反事实推理
不同条件假设下的视觉场景演化