一种基于GPT的多任务视觉感知解码方法

    公开(公告)号:CN118427767A

    公开(公告)日:2024-08-02

    申请号:CN202410145024.X

    申请日:2024-02-01

    Abstract: 本发明公开了一种基于GPT的多任务视觉感知解码方法,属于生物医学图像脑解码中的语言解码技术领域。本发明基于观看大量视觉感知图像下的功能磁共振信号数据建立基于GPT模型的语言解码模型,其包括:Prompt嵌入模块,将包含任务信息的Prompt嵌入到隐特征空间;视觉编码模块,使用GRU将视觉相关区域体素信号编码到隐特征空间;网络编码模块,将视觉相关区域体素信号作为上下文,指导大脑所有其他区域的体素信号的选取,并将全局信息编码到隐特征空间;语言生成模块,融合隐特征并识别隐特征以进行对应内容的文本生成。本发明解决了在一个解码模型中无法进行多个解码任务的问题,并引入了大脑的有效全局信息,可以实现多任务语言生成式脑机接口场景的实际应用。

Patent Agency Ranking