【学术论坛】计算机与人工智能学院成功举办第六十六期研究生学术论坛

来源: 计算机与人工智能学院 作者:魏逸飞编辑人:罗园发稿时间:2025-12-08浏览次数:

2025年12月5日晚19时,计算机与人工智能学院第六十六期研究生学术论坛在崇真楼南楼A4030成功举办。本次论坛由2023级研究生叶沛、李珠婷、黎瑶以及2024级研究生施霄主讲,计算机与人工智能学院研究生会学术部主办,学院朱飞老师出席了该论坛。

叶沛同学分享的主题为“MobileMamba: Lightweight Multi-Receptive Visual Mamba Network”。过往轻量级视觉模型研究聚焦于CNN与Transformer,但CNN受限于局部感受野,难捕获长距离依赖;Transformer虽全局建模强,但高分辨率下计算复杂度为二次方。近年来,状态空间模型(Mamba)因线性复杂度受到关注,但现有轻量级Mamba模型虽FLOPs低,实际吞吐量仍不理想。为此,他们提出MobileMamba框架,采用三阶段网络架构,大幅提升了推理速度;并设计了多感受野特征交互模块(MRFFI),该模块集成了WTE-Mamba、高效多核深度可分离卷积以及冗余恒等连接消除策略,能够融合多尺度信息并强化高频细节提取。实验表明,MobileMamba全面超越当前主流高效模型,实现了速度与精度的最佳平衡。

李珠婷同学分享的主题为“DETRs Beat YOLOs on Real-time Object Detection”。她们针对YOLO系列受非极大值抑制(NMS)限制导致推理延迟不稳定,以及现有DETR计算成本过高无法实时的问题,提出了首个实时端到端目标检测器RT-DETR。该模型设计了高效混合编码器,通过解耦多尺度特征交互大幅降低计算量;并提出不确定性最小化查询选择策略,优化初始查询质量以提升精度。此外,模型支持无需重训的灵活速度调节。

施霄同学分享的主题为“From Body Parts to Holistic Action: A Fine-Grained Teacher-Student CLIP for Action Recognition”。动态视频中的动作识别仍具挑战性,尤其在区分视觉相似的动作时。现有方法常依赖整体表征,却忽视了对准确分类至关重要的精细细节。他们提出一种新型精细化师徒CLIP(FT-CLIP)模型,通过师徒架构将肢体分析与整体动作识别相结合,弥合了精细动作解析与整体动作理解之间的鸿沟。教师模型通过处理个体肢体部件及专属描述生成部件特异性特征,随后将这些特征聚合并蒸馏至学生模型。借助可学习提示的知识蒸馏机制,学生模型在保持高效推理的同时,能有效学习捕捉动作间的细微差异。FT-CLIP通过从精细的身体部位分析逐步推进至整体动作识别,实现了对复杂动作的更细致理解。在Kinetics-TPS数据集的全监督环境实验,以及HMDB51和UCF101数据集的零样本环境实验均验证了本方法的有效性。

黎瑶同学分享的主题为“Residual Local Feature Network for Efficient Super-Resolution”。基于深度学习的方法在单图像超分辨率(SISR)领域取得了显著成效。然而,通过复杂的层连接策略提升特征利用率来聚合更强大的特征,这些结构可能并非实现更高运行速度所必需。她们提出了一种新颖的残差局部特征网络(RLFN)。其主要思想是使用三个卷积层进行残差局部特征学习,以简化特征聚合。此外,重新审视了流行的对比损失,并观察到其特征提取器中间特征的选择对性能有很大影响。此外,提出了一种新颖的多阶段热启动训练策略。在每个阶段,利用前一阶段的预训练权重来提高模型性能。