2025年4月2日上午9点,计算机与人工智能学院第十七届知行分论坛暨五十六期学术论坛在崇真楼南楼A4030成功举办,本次论坛由2022级研究生刘瑞雪、邓洋、苗佳哲、韩枫、2023级研究生袁油抗、袁嘉淇、时佳乐、成子惠主讲,学院研究生会主办,学院潘雄、李敏、王帮超、杨凯、唐贤方等五位老师出席了该论坛。
袁油抗同学分享的主题是“CasRPN: Cascade Region Proposal Network for Visual Tracking” 针对基于RPN跟踪器提取前后景特征区分度不高问题,他提出联合卷积和ViT的特征提取网络。在前两阶段利用卷积建立局部相关,并在第三阶段使用ViT构建全局相关性,这样增强了特征区分度。面对单阶段RPN单次调整预测框不够充分问题,他提出了级联RPN头部网络,实现了对初始化框的多阶段优化,在不同阶段使用了不同的正负样本评价标准,评判条件设置逐渐严格。他在GOT-10k数据集上进行了消融实验,验证了他提出方法的有效性,并在TrackingNet和UAV数据集上表现优越。
袁嘉淇同学分享的主题是“DFFENet:Dual-Branch Frequency Domain Feature Enhancement Network for Skin Lesion Classification”, 针对现有方法主要依赖于空间域的特征提取,忽略频域信息的利用。他提出的DFFENet旨在提高皮肤病变图像分类的准确性,通过结合多分支特征、局部频域信息和空间信息,增强皮肤病变区域的表征能力,从而提升分类性能,并有效实现皮肤病变的自动分类。其中,频域特征增强模块能够精准提取皮肤病变的鲁棒特征,通过捕获和处理不同频段的频域分量,使网络充分利用频域信息,并在复杂背景下准确识别皮肤镜图像中的病变区域。他在多个数据集上进行了实验评估,结果表明,该方法在皮肤病变分类任务中达到了最先进的性能,凸显了其在皮肤病计算机辅助诊断中的重要价值。
刘瑞雪同学分享的主题是“MelodyTransformer:Improving Lyric-to-Melody Generation by Considering MelodicFeature”。她针对歌词-旋律配对数据不足及现有方法忽视音乐特性的问题,提出创新解决方案:采用非端到端生成策略缓解数据限制,并设计专用MelodyTransformer模型,通过考虑音符时值、音高等特征实现针对性旋律生成。实验表明,该方法在客观指标和主观评价上均优于现有模型,验证了音乐专用模型架构的重要性,为歌词配曲任务提供了新的技术思路。
邓洋同学分享的主题是“PromptLink: Multi-template prompt learning with adversarial training for issue-commit link recovery”。现有的软件跟踪方法降低了任务的复杂性,但忽略了预训练语言模型上游任务与下游链接恢复任务之间的不一致性,使得未能充分利用预训练模型的语义信息。为了缓解这个问题,她首次引入新的范式,提出了一种基于多模板提示学习与对抗训练的Issue-Commit链接恢复方法(PromptLink)。具体而言,通过构建不同的提示模板,对预训练模型的知识注入,从而增强模型对软件制品的理解能力。此外,PromptLink结合对抗训练,在数据层面引入扰动。实验使用了六个开源项目,实验结果表明PromptLink在issue-commit需求跟踪任务上性能超越了SOTA方法,在六个项目上的F1值平均提升了8.61%。
苗佳哲同学分享的主题是“GarTemFormer: Temporal transformer-based for optimizing virtual garment animation”。GarTemFormer通过特征对齐和引导图抑制噪声,高效建模帧间依赖;将人体-服装特征融合,SMPL参数化模型与服装变形关联;通过碰撞修正和损失函数确保物理合理性。实验表明,方法在真实视频和合成数据集上均优于现有技术,提升了服装变形的时空连贯性与细节真实感。
韩枫同学分享的主题是“RASNet:Recurrent aggregation neural network for safe and efficient drug recommendation”。由于长期感染慢性病,患者的病情会出现周期性变化,如何基于电子病历对此类患者建模以精准推荐用药是一个难题。为应对这些挑战,他提出了一种名为 RASNet 的新型药物推荐模型。RASNet 使用循环聚合网络来识别与患者当前健康状况相似的历史健康记录。当患者的病情呈现周期性模式时,它可以过滤掉多次就诊中的噪声记录,从而有效解决因病情反复引入的数据噪声问题。此外,RASNet 还引入了新颖的 DDI 损失,以确保药物推荐的安全性和准确性。在 MIMIC-III 数据集上进行的大量实验证明,RASNet达到了最先进的性能。
时佳乐同学分享的主题是“GrasOpen:Biometric Authentication via Reach-and-Grasp for Smart Door Acces Using Smartwatch”。他介绍了一种专为开门场景量身定制的创新生物识别认证系统GrasOpen,该系统采用带有IMU的智能手表来跟踪和分析手臂运动。GrasOpen通过利用伸手和抓握动作的独特特性来应对关键挑战,消除了用户记忆复杂动作的必要性,并避免了等待面部识别等冗余动作。最初,GrasOpen提出了一种轻量级模型,用于从日常活动中辨别开门动作。然后,GrasOpen集成了一种互补滤波器方法来捕获开门动作中的多样性相关特征。这些特征随后通过修改后的ConvBoost模型进行处理,以实现精确的用户身份验证。实验结果显示,GrasOpen在活动识别和身份认证方面的准确率分别为98.78%和98.65%。
成子惠同学分享的主题是“A Multi-View Feature-Based interpretable Deep Learning Framework for Drug-Drug Interaction Prediction”。当患者同时服用多种药物时,药物间相互作用(DDIs)会导致有害后果。因此,准确预测 DDI 至关重要。然而,目前的方法仅集中于单一视图特征,如原子视图特征或子结构视图特征,从而限制了对 DDI 预测的准确性。基于多视角特征的可解释性研究比较稀少。多视角特征对于追踪相互作用至关重要。针对这一空白,她提出了MI-DDI,一种基于多视角特征的可解释性深度学习框架。为了充分提取多视角特征,她采用了消息传递神经网络从RDkit生成的分子图中学习原子特征,同时从药物 SMILES 中学习子结构视图嵌入。这些原子视图和子结构视图特征合并成一个整体药物嵌入矩阵。随后,精心设计的交互模块不仅为理解相互作用建立了一条可行的途径,还直接为权重矩阵的构建提供了信息,这样就能进行精确、可解释的相互作用预测。在BIOSNAP数据集和DrugBank数据集上的验证表明了MI-DDI 的优越性。
本次学术报告中同学们分享了前沿的成果,展现出了扎实的学术功底与积极的科研态度。每位同学报告后,老师们针对分享内容展开深入讨论,并给予细致指导。报告结束后,评委老师给分享的同学们进行颁奖并合影。