智能版看图说话 ----基于多层语义特征的图像理解方法_信息与智能工程学院

2022年5月27日下午，信息与智能工程学院智能科学与技术专业教师肖衡副教授为智科专业与大数据专业的学生开展了一次以“基于多层语义特征的图像理解方法”为主题的专题讲座，讲座在腾讯会议上进行。

本次讲座，肖老师从图像的展示开始，让学生说出图像中的内容，再用计算机实现对图像的描述，用生活形象的对比效果，引入讲座的主题“图像理解”，使学生们对图像理解有了初步的印象。

讲座从三个方面讲解了图像理解的技术：

1. 图像理解的应用与前景

人工智能上升到国家战略地位，体现出人工智能在国家大环境中的受重视程度。近几年人工智能的两大分支——计算机视觉和自然语言处理非常火热，伴随而出的计算机视觉与自然语言处理交叉领域——智能图像理解。它是对图像的语义理解，以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门学科。图像理解属于多模态问题，目前较为广泛的应用研究主要在智能视觉监控、图像检索、图像补充、图像描述、智能问答系统等方面。

将语义和图像注意力结合是新的研究点。通过结合视觉注意力和语义注意力，使用多实例学习从图像特征中提取描述词汇作为语义注意力的对象，使得图像理解在现实中具有很好的应用前景。

2. 图像理解的技术与算法原理

利用知识推理去辅助高层视觉语义理解：将人类知识和标签分类法纳入到图卷积网络中构造新的迁移学习跨领域推理算法，再通过语义感知图推理和传输在多个域中保持一致性，实现跨域图像解析的语义包融和互补。肖老师说除了高层视觉语义理解外，基于知识的视觉推理也可以被应用到一些传统的视觉任务当中，突破现有模型的性能瓶颈。

加入注意力机制：注意力机制在自然语言处理上取得的巨大成功引起研究者对图像描述的兴趣。将注意力用到图像描述中，编码端注意力加权图像特征后，把它输入LSTM中解码出描述。主要有两类注意力：软注意力和硬注意力。软注意力是在每一个图像区域中训练一个介于0与1之间和为1的注意力权重，再将各图像区域进行加权求和。而硬注意力则将1作为最大权重、其他区域权重设为0，以实现仅侧重描述一个区域。

图像描述分割技术：基于树结构的多模态循环神经网络模块，将低层特征通过语义引导融合到高层特征中，贯彻自底向上的语义一致性。旨在解决在给定某个自然语言描述下做出跟该表述相关的图像分割，以及如何在抽象的语言表述中实现精细化的分割结果这一问题。

3. 对图像理解方法的研究思考

图像理解涉及到图像与文本之间的转换关系，图像和文本之间的相互转换需要图像的场景识别与理解、目标的检测和识别、图像融合等相关技术，这也是图像理解中最具挑战性的和最具趣味性的研究课题。

未来图像描述模型希望做到自学习方式，利用少量数据集训练出能够生出非常简单的描述，再把此模型使用不同方面、不同时段的在线网络文本中出现句子来训练生成模型，直到生成模型的损失值趋于收敛到极小停止。如果图像与文本的转换技术成熟，那么电脑就具备“看图说话”、“看书做图”、“看图谱歌”的能力。

最后，肖老师对机器视觉前景进行了展望，邀请同学们加入到她的研究课题中，一起学习图像视觉方面的知识，同时鼓励同学们选择自己喜爱的方向进行钻研，抓住机遇，成就更好的未来。