-
公开(公告)号:CN118427767A
公开(公告)日:2024-08-02
申请号:CN202410145024.X
申请日:2024-02-01
Applicant: 电子科技大学
IPC: G06F18/25 , G06F40/284 , G06F40/205 , G06N3/0442 , G06F17/16 , G06F18/214
Abstract: 本发明公开了一种基于GPT的多任务视觉感知解码方法,属于生物医学图像脑解码中的语言解码技术领域。本发明基于观看大量视觉感知图像下的功能磁共振信号数据建立基于GPT模型的语言解码模型,其包括:Prompt嵌入模块,将包含任务信息的Prompt嵌入到隐特征空间;视觉编码模块,使用GRU将视觉相关区域体素信号编码到隐特征空间;网络编码模块,将视觉相关区域体素信号作为上下文,指导大脑所有其他区域的体素信号的选取,并将全局信息编码到隐特征空间;语言生成模块,融合隐特征并识别隐特征以进行对应内容的文本生成。本发明解决了在一个解码模型中无法进行多个解码任务的问题,并引入了大脑的有效全局信息,可以实现多任务语言生成式脑机接口场景的实际应用。
-
公开(公告)号:CN118038138A
公开(公告)日:2024-05-14
申请号:CN202410128666.9
申请日:2024-01-30
Applicant: 电子科技大学
IPC: G06V10/764 , G06V10/26 , G06V10/40 , G06V10/77 , G06V10/82 , G06V10/52 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/084 , A61B5/055 , A61B5/00
Abstract: 本发明公开了一种用于自然图像引发的人脑活动的多任务同步解码方法,属于生物医学图像的多任务解码技术领域。本发明基于观看大量自然图像下的功能磁共振信号数据建立基于多任务视觉信息脑解码模型,包括:视觉编码模块,将视觉相关区域体素信号编码到隐特征空间;多任务编码模块,获取包括视觉信息特征向量、类别信息特征向量和语义解码任务的特征向量的多任务特征向量;类别解码模块,获取预测的类别的概率分布;语义解码模块,预测语义标签的概率分布;语言解码模块,来捕捉文本中的深层次结构和语义关系,从而生成更准确的连续描述性文本。本发明解码出的类别信息和语义标签的准确率高,并且解码出的图像描述能指向其主要元素或事件。
-