-
公开(公告)号:CN114743630B
公开(公告)日:2024-08-02
申请号:CN202210347478.6
申请日:2022-04-01
Applicant: 杭州电子科技大学
IPC: G16H15/00 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种基于跨模态对比学习的医学报告生成方法。本发明步骤如下:1、使用ViT模型将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置保留位置信息,再输入标准的TransformerEncoder来提取图像特征;2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作;4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder‑L,得到每个时间步的单词概率分布;5、将得到的两个单词概率分布使用单塔结构的跨模态对比学习进行对齐。本发明将Transformer和LSTM进行优势互补,更好的捕捉句子生成的长期和短期依赖。
-
公开(公告)号:CN114743630A
公开(公告)日:2022-07-12
申请号:CN202210347478.6
申请日:2022-04-01
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于跨模态对比学习的医学报告生成方法。本发明步骤如下:1、使用ViT模型将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置保留位置信息,再输入标准的TransformerEncoder来提取图像特征;2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作;4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder‑L,得到每个时间步的单词概率分布;5、将得到的两个单词概率分布使用单塔结构的跨模态对比学习进行对齐。本发明将Transformer和LSTM进行优势互补,更好的捕捉句子生成的长期和短期依赖。
-