研究方向 — XU & GAN CVLAB

①

从图像、视频中提取结构化语义信息，面向复杂开放场景的鲁棒识别。

②

研究高质量、可控、高效的视觉内容生成方法，推动 AIGC 与数字创意应用。

③

跨视觉、语言、语音等多模态的统一表征与协同推理。

④

面向边缘设备与实时应用的模型压缩、蒸馏与架构优化。

⑤

从 2D 观测中恢复 3D 结构，支撑 AR/VR、机器人、数字孪生应用。

⑥

关注模型的鲁棒性、可解释性、公平性与隐私保护。

应用领域

我们的研究成果已在多个真实场景中得到落地验证：

医学影像分析与辅助诊断。

工业视觉检测与机器人感知。

AIGC 创作与智能视频编辑。

环境感知与场景理解。