VL-Foundation
开源项目
视觉-语言基础模型
面向中英双语的视觉-语言预训练模型,支持图像描述、视觉问答、跨模态检索等下游任务。
正在开展的研究项目、开源工具以及在学术竞赛中取得的成果。
实验室当前正在开展的主要科研项目与开源工作。
面向中英双语的视觉-语言预训练模型,支持图像描述、视觉问答、跨模态检索等下游任务。
针对扩散模型推理慢的问题,研究加速采样、蒸馏和架构优化方法。
与三甲医院合作,开发面向多模态医学影像的智能辅助诊断系统。
基于神经辐射场和高斯溅射技术的动态 3D 场景重建与渲染开源工具。
面向移动端和嵌入式设备的高效视觉模型推理库,支持模型量化与加速。
研究 AI 生成内容的识别与溯源,推动可信 AI 技术发展。
实验室团队成员在各类国内外权威竞赛中取得的代表性成绩。