机器学习时代,神经科学家如何阅读和解码人类的思想(10)
2023-05-20 来源:飞速影视
图 7. 深度神经网络潜在空间。(a)VAE-GAN 网络架构。(b)潜在空间属性
作者首先使用无监督 GAN 在 202,599 张名人人脸标记数据库上训练了一个 VAE 深度网络(13 层)(CelebA[8]),共执行 15 个 epoch。使用编码器处理向人类受试者展示的人脸图像以生成 1024 维的潜在编码,这些编码作为设计矩阵后续会用于 fMRI GLM(一般线性模型)分析。作者使用 SPM12 处理 fMRI 数据(https://www.fil.ion.ucl.ac (https://www.fil.ion.ucl.ac/).uk/spm/software/spm12/)。接下来,作者对每份数据分别进行了切片时间校正和重新对齐。然后将每个时段的数据与第二个 MRI 时段的 T1 扫描数据进行联合登记。不过,作者并未对这些数据进行归一化或平滑化处理。具体的,作者将每个实验的开始和持续时间(固定、训练脸、测试脸、单人背影或意象)输入一般线性模型(general linear model,GLM)中作为回归因子;
将用于训练脸部的 1024 - 维潜在向量(来自 VAE-GAN 或 PCA 模型)作为参数化的回归器来建模,并将运动参数作为滋扰回归器(nuisance regressors)输入用于消除滋扰信号。此外,在估计 GLM 参数之前,令整个设计矩阵与 SPM 的血流动力学反应函数(hemodynamic response function,HRF)进行卷积处理。
作者训练了一个简单的大脑 fMRI 的编码器(线性回归),将人脸图像的 1024 维潜在表征(通过 "编码器" 运行图像,或使用 PCA 变换获得)与相应的大脑反应模式联系起来,并将人类受试者在扫描仪中观看相同的人脸时记录下来。图 8(a)给出了这一过程的完整描述。每个受试者平均看到超过 8000 张人脸(每个人都有一个演示),使用 VAE-GAN 潜在维度(或图像在前 1024 个主成分上的投影)作为 BOLD 信号的 1024 个参数化回归因子。这些参数化的回归因子可以是正的,也可以是负的(因为根据 VAE 的训练目标,VAE-GAN 的潜在变量是近似正态分布的)。将一个额外的分类回归因子("面部与固定" 对比)作为一个恒定的 "偏差" 项添加到模型中。作者验证了设计矩阵是 "full-rank" 的,也就是说,所有的回归因子都是线性独立的。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号