2024年11月29日下午19点,计算机与人工智能学院第五十一期研究生学术论坛在崇真楼南楼A4030成功举办,本次论坛由2024级研究生郭馨婷,2022级研究生李爽,2022级研究生余紫薇,2023级研究生胡守娅主讲,学院研究生会主办,学院孙毅老师出席了该论坛。
郭馨婷同学分享的主题为“2024CNCC参会汇报”,介绍了由浙江大学CAD&CG国家重点实验室主任周昆教授主持的“三维重建的尽头是高斯”会议。会议重点介绍了“高保真虚拟数字人”技术,由中国科学技术大学的张举勇教授进行分享,介绍了其课题组研发的基于单目RGB视频的高保真三维人体重建算法——SelfRecon。该算法的创新之处在于,仅需一段十几秒的目标对象自转视频作为输入,便能够精确恢复并重建对象的高保真数字化身。
余紫薇同学分享的主题为“EDT: An EEG-based attention model for feature learning and depression recognition”。在基于深度学习的抑郁症识别领域,脑电图数据的频域信息受到较少关注。她们提出了一种名为“EDT”的深度学习模型,该模型能够从EEG数据的频率、空间和时间域中提取特征,并结合注意力机制和卷积神经网络的优势,开发了专门的频域特征提取模块。实验显示,EDT模型在抑郁症识别任务中准确率达到92.25 ± 4.83%,显著超越其他模型。
李爽同学分享的主题为“Automatic code generation from GUI screenshots with vision-language models”。她们在pix2code的基础上提出了一种端到端的GUI代码生成框架img2code。通过在ViT输出和GPT-2输入之间引入交叉注意力机制来处理多模态信息融合的问题,成功地将视觉信息和代码信息有效结合,提高了模型的性能和准确性,她们的方法在BLEU-4上提升了24%。
胡守娅同学分享的主题为“CNCC参会分享:大模型时代下的检索增强生成(RAG)”。在CNCC2024中,郭嘉丰教授和窦志成教授分享了RAG(检索增强生成)的最新研究进展。郭教授研究了RAG的核心问题:一是提升模型知识边界感知能力解决何时使用RAG的问题。二是使用迭代式效用判断框架解决优化检索结果的问题。三是通过反事实风险控制框架解决如何提升生成结果的可靠性的问题。此外,她还分享了参会学习到的一些研究成果:包括开源RAG框架GoMate和FlashRAG工具包。