当前位置：首页>南京>脑机接口新进展:南京大学等提出StableMind在1小时fMRI数据下实现高精度跨被试解码

脑机接口新进展:南京大学等提出StableMind在1小时fMRI数据下实现高精度跨被试解码

2026-06-06 01:09:00

<StableMind: Source-Free Cross-Subject fMRI Decoding with Regularized Adaptation>

代码：https://github.com/lingeringlight/StableMind

一、研究方向及背景

本文属于 fMRI-based brain decoding / 脑视觉解码 方向，即根据人脑在观看图像时产生的 fMRI 信号，恢复或检索对应的视觉刺激图像。近年来，这类方法常将 fMRI 信号映射到 CLIP、扩散模型等大模型的视觉语义空间中，再进行图像检索或图像重建。

传统 fMRI 图像重建方法通常为每个被试单独训练一个模型，但这需要大量高质量 fMRI 数据。现实中，新被试的数据采集昂贵且耗时，往往只能获得 1 小时左右的数据。同时，由于隐私、存储或共享限制，旧被试的原始 fMRI-image 配对数据在新被试适应阶段可能不可用。

因此，本文研究的是更现实的场景：Source-Free Cross-Subject fMRI Decoding，即模型先在多个源被试上预训练，再在新被试上用少量数据适应，但适应阶段不能访问源被试原始数据。

论文认为现有方法性能下降主要来自两个不稳定因素，如图1 所示：

图1(a) 展示了不同被试在相同视觉刺激下的 fMRI 表征分布存在明显差异，尤其是频谱中的 amplitude / 幅度统计差异 大于 phase / 相位差异。这说明跨被试适应时，脑信号侧存在强烈个体差异。

图1(b) 则说明 fMRI 信号未必能可靠捕捉图像中的所有细粒度视觉细节。如果直接用完整清晰图像作为监督，模型可能被迫学习一些脑信号中并不稳定存在的纹理、背景等细节，从而造成过拟合。

二、研究方法或创新点

论文提出 StableMind，一个面向无源跨被试 fMRI 解码的正则化适应框架。整体流程见图3。它从两个层面稳定模型适应过程：

脑信号侧稳定性
：减少新被试 fMRI 表征因个体差异造成的不稳定。
图像监督侧可靠性
：避免模型过度依赖 fMRI 难以支持的细粒度图像细节。

StableMind 主要包含三个模块。

创新点一：跨被试 Ridge 重用

Cross-Subject Ridge Reuse, CSRR

跨被试 fMRI 解码中，不同被试的 voxel 数量和脑响应模式不同，因此通常需要一个被试特定的 ridge projection，将不同被试的 fMRI 映射到统一潜在空间。

论文通过图2 发现：即使输入同一个目标被试的 fMRI 信号，使用不同源被试的 ridge 层进行映射，也会得到分布明显不同的 latent feature。这说明 ridge 层本身包含被试特异性的投影模式。

StableMind 的做法是：在新被试适应时，不完全依赖新被试少量数据学习 ridge，而是复用预训练模型中源被试的 ridge projection 作为弱先验。具体来说：

将目标被试 fMRI 经过 padding / truncation 后送入多个冻结的源被试 ridge；
得到多个源 ridge 输出后求平均，形成 source prior；
将目标 ridge 输出与 source prior 加权融合；
再用一个弱 cosine distillation loss 约束目标 ridge 不要偏离源先验过远。

这一设计的作用是：用多个源被试的投影知识稳定新被试的 voxel-to-latent 映射，降低少样本适应时的过拟合风险。

创新点二：特征级脑表征增强

Feature-Level Brain Augmentation, FBA

论文观察到，跨被试 fMRI 表征差异主要体现在频谱幅度统计上，而相位信息相对稳定。因此，StableMind 在中间脑特征上进行 Fourier-based augmentation：

对中间 fMRI feature 做离散傅里叶变换；
保留 phase / 相位；
对 amplitude / 幅度统计进行高斯扰动；
再通过逆傅里叶变换恢复为扰动后的脑特征。

这一过程见 图3 中的 Feature-Level Brain Augmentation 模块。

其核心思想是：只扰动容易受个体差异影响的幅度统计，而保留结构性更强的相位信息。这样可以让模型在训练时见到更多“合理变化”的脑特征，从而减少对某些被试特异性或样本特异性模式的依赖。

论文在 表VII 中比较了多种增强方式，包括 random noise、uniform、swap amplitude、mix amplitude 和 Gaussian model。结果显示，Gaussian amplitude-statistics perturbation 效果最好，说明平滑、受控的幅度统计扰动比无结构噪声更适合 fMRI 跨被试适应。

创新点三：难度感知图像模糊监督

Difficulty-Aware Image Blur, DIB

现有方法往往直接使用原始清晰图像或图像编码特征作为监督目标。但在只有 1 小时 fMRI 数据的情况下，脑信号未必支持图像中的全部细节，尤其是纹理、背景等高频信息。

StableMind 因此提出 难度感知图像模糊监督：

先计算当前脑表征和图像表征之间的相似度；
维护一个 image-wise difficulty bank；
根据样本难度决定模糊程度；
容易对齐的样本给予更强模糊，防止模型过拟合细节；
难对齐的样本保留更多清晰区域，以免监督信号过弱。

这一机制见 图3 中的 Difficulty-Aware Image Blur 模块。

在 表VI 中，论文比较了 clean image、whole blur、fixed-radius blur 和 difficulty-aware blur。结果显示，难度感知模糊在 PixCorr、Inception、CLIP、image retrieval 和 brain retrieval 等指标上整体最优，说明自适应模糊比固定模糊或全图模糊更有效。

三、实验结果

1. 数据集与实验设置

实验在 Natural Scenes Dataset, NSD 上进行。NSD 是大规模 7T fMRI 数据集，包含 8 名被试观看自然图像时的脑响应。论文采用跨被试设置：

用 7 个源被试预训练模型；
将 1 个被试作为目标被试；
目标被试只使用 1 小时 fMRI 数据 进行适应；
主要在 subject 1、2、5、7 四个完成全部 40 个 session 的被试上评估。

这对应大约只使用完整单被试训练数据的 2.5%。

2. 与 SOTA 方法比较：检索性能明显提升

核心结果见表1。

在四个目标被试平均结果上，StableMind 达到：

指标	StableMind	对比 SOTA MindTuner	提升
Image Retrieval	84.02%	83.00%	+1.02%
Brain Retrieval	81.66%	75.95%	+5.71%

其中 Brain Retrieval 的提升尤其明显，说明 StableMind 学到的脑-图像对齐表征更加稳定、可区分。

相比 MindEye2，StableMind 的 Brain Retrieval 从 57.39% 提升到 81.66%，提升幅度达到 24.27 个百分点。

3. 图像重建质量：保持竞争力

表1 还报告了 fMRI-to-image reconstruction 的低层和高层指标：

低层指标：PixCorr、SSIM、AlexNet(2)、AlexNet(5)
高层指标：Inception、CLIP、EffNet、SwAV

与 MindEye2 相比，StableMind 在多数指标上更好，例如：

PixCorr：0.195 → 0.226
Alex(2)：84.21% → 87.83%
Inception：80.66% → 85.08%
CLIP：80.00% → 83.56%

与 MindTuner 相比，StableMind 的重建质量整体相当，并在部分高层语义指标上更好。

4. 参数效率：更少可训练参数

见表2。StableMind 在新被试适应时只需要约 4.04M 个可训练适应参数，而 MindTuner 需要 12.30M。这说明 StableMind 不仅性能更强，而且更加参数高效。

5. 消融实验：三个模块互补有效

见表3。论文分别去除 CSRR、FBA、DIB 后观察性能变化。结果表明：

只要加入其中两个模块，性能就超过无模块 baseline；
三个模块同时使用时效果最好；
说明三者分别从不同角度发挥作用：

模块	主要作用
CSRR	稳定新被试 voxel-to-latent 投影
FBA	提升脑表征对个体差异的鲁棒性
DIB	提高图像监督可靠性，减少细节过拟合

6. 可视化结果

图5 展示了 voxel-wise ridge weights 在 NSD cortical flat map 上的分布。StableMind 在只有 1 小时数据时，能恢复出比 MindEye2 更清晰、更接近 40 小时全数据模型的视觉皮层权重模式。

图6 展示了图像重建样例。相比 MindEye2 和 MindAligner，StableMind 重建图像在物体形状、颜色、场景布局上更接近原始刺激图像。

图7 展示 t-SNE 特征分布。StableMind 的类内聚合更紧密、类间分离更清晰，说明其学习到的脑表征更具判别性。

表IX 则从频谱角度证明 StableMind 降低了跨被试差异：其 frequency gap、amplitude gap、phase gap 均低于 MindEye2、MindAligner 和 MindTuner，其中 amplitude gap 从 MindEye2 的 20.068 降到 6.078。

四、总结

这篇论文的核心贡献是：将跨被试 fMRI 解码问题从单纯的“表征对齐”重新理解为一个 有限数据下的正则化适应问题。

StableMind 针对两类不稳定来源提出对应解决方案：

被试差异导致的脑表征不稳定
通过 CSRR 复用源被试 ridge 先验，并用 FBA 在频谱层面对脑特征进行增强。
图像细节监督与 fMRI 信号不匹配
通过 DIB 对图像监督进行难度感知模糊，减少模型对不可靠细节的过拟合。

实验表明，在仅使用 1 小时目标被试 fMRI 数据的设置下，StableMind 在图像检索、脑检索和图像重建方面都取得了较强表现，尤其显著提升了 Brain Retrieval，并且所需可训练参数更少。

总体来看，本文的价值在于把 fMRI 跨被试解码推进到更真实的部署场景：数据少、源数据不可访问、个体差异显著。这对未来脑机接口、神经影像辅助诊断、个体化脑解码模型等方向具有一定启发意义。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

脑机接口新进展:南京大学等提出StableMind在1小时fMRI数据下实现高精度跨被试解码

一、研究方向及背景