关键词:
解耦表征学习
对比学习
潜在空间
图像生成
可解释方向
摘要:
解耦表征学习通常用于探索视觉数据背后潜在的可解释因素,并学习视觉数据的特征表示。为了获得良好的解耦表征结果,目标是从数据生成的角度解耦视觉数据的潜在因素,使深度神经网络像人类一样自主智能地学习复杂的视觉数据。解耦表征学习可以生成具有特定属性和风格的图像,同时保持其他属性不变。为了使模型解释人工智能系统的决策过程,解耦表征学习将复杂的数据特征分解成易于理解的部分。在更广泛的人工智能领域,解耦表征学习被用来更好地理解深度学习模型的工作机制。然而,在面向视觉数据的实际应用中,现有方法主要在生成式视觉图像理解和认知图像属性特征的图像生成这两方面存在不足。分别表现在:(1)现有方法通过使用额外的正则项发现图像变化因素并学习解耦表征,但通常导致解耦和生成质量之间的不平衡,影响视觉图像理解效果;(2)现有方法更多地关注图像生成的低维表示,忽略目标变化图像内在的可解释因素,导致生成的图像容易受到其它不相关属性特征的影响。因此,本文从解耦表征学习的视角开展研究,解决上述不足。主要研究工作如下:
(1)针对现有方法存在解耦和生成质量之间的不平衡,影响视觉图像理解效果的问题,从图像的可解释性变化出发,提出基于解耦表征学习的生成式视觉图像理解方法。首先,设计预先训练的Glow生成模型,获取目标图像的潜在表征;然后,由潜在表征构建基于图像变化的学习策略,得到候选遍历的可解释方向;最后,在对比学习视角下设计对比模块,根据候选遍历的可解释方向模拟图像变化,进而提取解耦表征。在解耦领域流行的数据集Shapes3D,MPI3D,Anime,MNIST和Cars3D上的实验结果表明,所提方法取得较好的效果,其中,在Cars3D数据集上的MIG,DCI,Factor VAE score和β-VAE score指标值分别达到0.16,0.27,0.89和0.98,验证了该方法的有效性和可行性。
(2)针对现有方法存在易忽略目标变化图像内在的可解释因素,导致生成的图像容易受到其它不相关属性特征影响的问题,提出解耦表征学习视角下认知图像属性特征的图像生成方法。首先,从生成模型的潜在空间出发,通过训练获得关于目标变化图像的候选遍历方向;然后,构建无监督语义分解策略,并基于候选遍历的方向联合发现嵌入在潜在空间中的可解释方向;最后,利用解耦编码器和对比学习构建对比模拟器和变化空间,进而由可解释方向提取目标变化图像的解耦表征并生成图像。在5个解耦领域流行的数据集上的实验表明所提方法性能较优。