近期,计算机与人工智能学院胡新荣教授领导的科研团队在图像分割方面取得了研究进展,相关工作的论文被计算机视觉领域国际顶级会议ECCV2024录用。该论文题目为《Open-Vocabulary RGB-Thermal Semantic Segmentation》,计算机与人工智能学院二年级硕士研究生赵国强为第一作者,颜小运为通讯作者。论文所有作者单位均为武汉纺织大学。
可见光-红外图像语义分割(简称RGB-T语义分割)具有广泛的应用能力,但当前RGB-T语义分割方法普遍不具备开放词汇分类能力,这严重限制了它们在开放空间的应用效果。此外,当前RGB-T语义分割方法常采用复杂的需要学习的多分支网络结构实现可见光和红外信息的融合,这也常常造成了低效的网络训练效率。为了解决这些问题,该论文首次提出了具有开放词汇分类能力的RGB-T语义分割模型:OpenRSS。该模型的特点是:1)提出了新的视觉提示学习方法对可见光和红外数据进行融合,在训练时只需要整个模型1%的参数进行训练,便可取得在主流数据库上优秀的RGB-T语义分割能力,相比其他方法明显提高了训练的效率,避免了复杂的多分支网络融合的设计。2)提出了新的单阶段开放词汇语义分割模型结构,其通过将视觉提示学习、视觉语言模型CLIP和改进后的基础视觉模型SAM进行巧妙的结合,实现了仅用单阶段网络设计实现开放词汇RGB-T语义分割的目的。3)提出了新的大模型微调方式对SAM模型进行任务微调和对齐。
OpenRSS不仅具有开放词汇语义分割能力,而且在闭合词汇RGB-T语义分割任务中也展示了优秀的性能,为相关领域未来的发展提供了一种优秀的基准模型,证明了新方向的可行性。
ECCV,全称为European Conference on Computer Vision,即欧洲计算机视觉国际会议,是计算机视觉领域中最顶级的会议之一,与ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)并称为计算机视觉领域的“三大顶会”, 在学术界具有很高的评价。ECCV每两年举行一次,会议内容广泛覆盖了计算机视觉的所有子领域。
近年来,在学校的大力支持下,计算机与人工智能学院大力引进高水平人才,凝聚学科方向,加强团队建设,科研成效逐渐凸显,在包括CCF推荐的 B类会议和学术期刊上发表了一批高水平论文,受到了同行的关注和认可。