①
视觉理解与识别
从图像、视频中提取结构化语义信息,面向复杂开放场景的鲁棒识别。
- 目标检测与实例分割
- 视频行为识别与时序建模
- 开放词汇与少样本识别
- 场景图生成与关系推理
围绕视觉智能的基础与前沿问题,开展跨层次、跨模态的系统性研究。
从图像、视频中提取结构化语义信息,面向复杂开放场景的鲁棒识别。
研究高质量、可控、高效的视觉内容生成方法,推动 AIGC 与数字创意应用。
跨视觉、语言、语音等多模态的统一表征与协同推理。
面向边缘设备与实时应用的模型压缩、蒸馏与架构优化。
从 2D 观测中恢复 3D 结构,支撑 AR/VR、机器人、数字孪生应用。
关注模型的鲁棒性、可解释性、公平性与隐私保护。
我们的研究成果已在多个真实场景中得到落地验证:
医学影像分析与辅助诊断。
工业视觉检测与机器人感知。
AIGC 创作与智能视频编辑。
环境感知与场景理解。