视觉理解与识别

从图像、视频中提取结构化语义信息,面向复杂开放场景的鲁棒识别。

  • 目标检测与实例分割
  • 视频行为识别与时序建模
  • 开放词汇与少样本识别
  • 场景图生成与关系推理

生成模型与内容创作

研究高质量、可控、高效的视觉内容生成方法,推动 AIGC 与数字创意应用。

  • 扩散模型与加速采样
  • 可控图像与视频生成
  • 3D 生成与神经辐射场
  • 图像编辑与风格迁移

多模态学习

跨视觉、语言、语音等多模态的统一表征与协同推理。

  • 视觉-语言预训练
  • 多模态大模型与指令调优
  • 跨模态检索与对齐
  • 视觉问答与推理

高效与轻量化模型

面向边缘设备与实时应用的模型压缩、蒸馏与架构优化。

  • 知识蒸馏与模型剪枝
  • 量化与低比特推理
  • 神经架构搜索
  • 端侧部署与加速

3D 视觉与几何理解

从 2D 观测中恢复 3D 结构,支撑 AR/VR、机器人、数字孪生应用。

  • 多视图重建与 SfM
  • 神经渲染与高斯溅射
  • 点云处理与理解
  • SLAM 与动态场景重建

视觉智能的可信与安全

关注模型的鲁棒性、可解释性、公平性与隐私保护。

  • 对抗鲁棒性与防御
  • 可解释性与可视化
  • AIGC 检测与内容溯源
  • 联邦学习与隐私保护

应用领域

我们的研究成果已在多个真实场景中得到落地验证:

01

智慧医疗

医学影像分析与辅助诊断。

02

智能制造

工业视觉检测与机器人感知。

03

数字内容

AIGC 创作与智能视频编辑。

04

自动驾驶

环境感知与场景理解。