Visual Large Model
以长视频理解为核心的视觉感知层。把视频与图像转化为可消费的结构化数据,让 AI 看懂内容。
- 01长视频理解引擎
- 02多目标识别与行为识别
- 03结构化数据输出(JSON / SDK)
- 0415 个垂直场景预训练
为企业把视频和图像变成可用的数据。 三种接入方式:在线 API、边缘部署、私有化。
// POST /v1/video/understand { "task_id": "vu_a3f4...", "frame_ts": 9742, "objects": [ { "label": "rack", "conf": 0.94 }, { "label": "led_fault", "conf": 0.86 } ], "event": "anomaly_detected" }
从识别,到预测,到机器人和设备上的实际部署。 三个连续阶段——不是三个并列产品。
以长视频理解为核心的视觉感知层。把视频与图像转化为可消费的结构化数据,让 AI 看懂内容。
在感知之上构建对世界动态的内部表征。让 AI 不仅能看懂当前帧,还能推演下一刻。
视觉具身智能。为 AI 在物理世界中的感知—决策—行动闭环提供视觉智能底座。
6 个核心能力。三种部署方式,15 个行业的预训练,统一的数据输出。
无需部署、无需训练。一款解决长视频结构化理解,一款解决社交视频高光提取——两条具体业务路径,背后共用同一套视觉智能引擎。
不用看视频,直接得到结果数据。上传长视频,自动识别关键事件、时间点、行为、异常。
让视频自动变成内容数据。识别视频中的结构、情绪、行为、关键事件。
从水下机器人到巡检无人机、从养殖牧场到车端边缘。视觉智能不是停留在实验室的概念。
低光照、悬浮颗粒、动态水流环境下识别异常。
view spec →巡检无人机 / 清洁机器人视觉底座。叶片损伤、表面积污自动识别。
view spec →多路连续视频群体行为稳定理解,异常个体识别。
view spec →在线 API · 边缘部署 · 私有化部署。从云端调用到设备离线运行,按需选择。
$ curl -X POST \ api.boyubo.cn/v1/video/understand \ -d @request.json
直接调用我们托管的视觉模型。无需部署、无需训练、注册即用。
$ boyubo deploy --target edge \ --device jetson-orin \ --model vlm-edge-int8
把视觉模型部署到客户的边缘设备 / 机器人 / 嵌入式系统。具身智能首选。
# boyubo-enterprise v1.4 → data residency: on-prem → air-gap supported → remote support only
把整套系统部署到客户私有环境。数据不出域、离线可运行、远程技术支持。
视觉模型如何从感知走向推演与具身。下面是最近的研究记录与技术写作。
从 4 小时长视频中稳定提取事件结构与时间锚点的工程实践与失败案例。
Read note →视觉世界模型早期实验:从感知到推演,时序动态先验如何提升异常前置识别。
Read preview →为什么视觉感知与推演能力是具身智能尚未被解决的真正瓶颈,以及我们的路径选择。
Read thesis →