-
公开(公告)号:CN118114753A
公开(公告)日:2024-05-31
申请号:CN202410167967.2
申请日:2024-02-06
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06N3/0985 , G06N3/084 , G06F40/30 , G06V20/70 , G06V10/40 , G06V10/82 , G06F18/25 , G06F18/27 , G06N3/0455 , G06N3/0499
Abstract: 本发明公开了一种视觉脑信号‑语言解码训练方法、解码方法及模型,基于大型数据集NSD,利用大模型的泛化能力,建立了一个视觉‑语言解码模型,提升了语言解码的效果。该模型包括:1)大脑活动编码模块:负责提取大脑活动特征,将大脑活动编码为带有图像特征和语义信息的大脑活动特征;2)解码空间映射模块:负责将大脑活动特征映射到GPT‑2的输入空间,使其特征空间与GPT‑2的输入空间具有相同的分布;3)语言解码模块:负责利用GPT‑2和多头交叉注意力机制,将大脑活动解码为文本描述。本发明解决了视觉‑语言解码中解码效果不理想的问题,极大提升了解码结果,促进了生成式脑机接口场景的实际应用。