-
公开(公告)号:CN115713083A
公开(公告)日:2023-02-24
申请号:CN202211475281.7
申请日:2022-11-23
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/30 , G06F16/35 , G06F18/241 , G06F18/2415 , G06F18/214 , G06N3/047 , G06N3/084 , G06N3/0985
Abstract: 本发明属于文本处理领域,具体涉及一种中医药文本关键信息的智能抽取方法,包括将待识别的中医药文本数据输入到训练好的实体片段识别模型中,预测中医药文本中实体的位置;将待识别的中医药文本数据以及对应的实体位置信息输入到实体类别识别模型,预测中医药文本中实体的类别;其中,所述实体片段识别模型采用BIO标记法结合Bert+CRF模型架构;所述实体类别识别模型采用原型网络结构,通过本发明能够准确地识别出中医药文本中的实体位置信息以及实体所属的类别。
-
公开(公告)号:CN115587595A
公开(公告)日:2023-01-10
申请号:CN202211380333.2
申请日:2022-11-03
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/284 , G06F40/126
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种用于病理文本命名的多粒度实体识别方法,该方法包括:获取病理文本信息,对病理文本按照字粒度、词粒度进行切分;对切分后的文本进行随机mask掩码和向量初始化,使用两个参数共享的Bert模型对随机mask掩码和向量初始化后的文本进行编码;给每个类别的每个实体预设中心代替词和中心代替字;使用KL loss和CE loss对字粒度和词粒度构造损失函数,CE loss针对替换后的字粒度计算损失进行优化,KE loss对替换后词粒度计算损失进行优化,得到实体识别结果。本发明通过字粒度,词粒度构建模板进行预测,可对病理文本的实体进行精准的识别抽取,实体识别效果较好。
-
公开(公告)号:CN116631566A
公开(公告)日:2023-08-22
申请号:CN202310582362.5
申请日:2023-05-23
Applicant: 重庆邮电大学
IPC: G16H15/00 , G16H30/40 , G06V20/70 , G06V10/764 , G06V10/82 , G06F40/186 , G06N3/045 , G06N3/084 , G06N3/0895
Abstract: 本发明属于计算机视觉与自然语言处理交叉领域,具体涉及一种基于大数据的医学影像报告智能生成方法,包括:将待处理的医学影像图片经预处理后输入到图像编码模型提取关键的图像特征;将提取的图像特征输入文本生成模型自动的生成诊断报告;其中,所述图像编码模型基于ViT神经网络模型,所述文本生成模型基于预训练语言模型GPT模型和分类器,通过设计损失函数FD‑CE和对比损失函数对医学影像报告智能生成模型进行优化,实现图像编码模型和文本生成模型之间的语义对齐和交互,本发明方法不仅使用方便,其生成的诊断报告更具有真实性和可靠性,可辅助医生进行诊断,从而提高诊断效率。
-
公开(公告)号:CN114282538A
公开(公告)日:2022-04-05
申请号:CN202111426052.1
申请日:2021-11-24
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06F40/216 , G06F40/284
Abstract: 本发明涉及一种基于BIE位置词列表的中文文本数据字向量表征方法,涉及深度学习、命名实体识别领域,包括以下步骤:S1:生成全量词集与强相关词集,并构建BIE位置词列表;S2:利用字向量的原始表征构建位置无关性词向量;S3:基于词频加权平均池化算法缩合词集中的词向量表征;S4:将字的BIE位置词向量加权并与原始字向量拼接,生成包含词汇位置信息的字向量。本发明在字向量中融入词汇的全量位置信息的同时,能够突出强相关词汇位置信息。扩展字向量表征维度,使得中文实体识别结果具有更高的准确性。
-
公开(公告)号:CN114048749A
公开(公告)日:2022-02-15
申请号:CN202111374828.X
申请日:2021-11-19
Applicant: 重庆邮电大学
IPC: G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于命名实体识别领域,具体涉及一种适用于多领域的中文命名实体识别方法,该方法包括:对中文命名实体数据集进行特定的领域分类;采用样本学习法对领域分类后的数据进行采样,得到数据集,将数据集输入到模型的共享编码表示层;通过域分类器,得到数据的所属领域概率分布,各领域专家层提取领域独有特征,公共专家层根据所属领域概率分布综合各领域专家的特征,将各专家层提取的特征输入到对应的CRF层,得到实体识别结果;本发明将多任务学习技术应用到中文命名实体识别领域中,不同域的数据被单独视为一个训练任务并设计特定的多专家模型结构来提取域独有特征和域共有特征,使不同域之间相互辅助,提升识别效果。
-
公开(公告)号:CN114358364A
公开(公告)日:2022-04-15
申请号:CN202111381076.X
申请日:2021-11-20
Applicant: 重庆邮电大学
IPC: G06Q10/04 , G06F16/735 , G06N3/04 , G06N3/08
Abstract: 本发明涉及大数据分析技术领域,公开了一种基于注意力机制的短视频点击率大数据预估方法,步骤包括构建数据集,并采用层次差异注意力算法获得领域特定用户好友嵌入;采用负责控制信息流入的双门控网络将用户个人嵌入分别与不同领域的用户好友信息嵌入融合;根据不同领域短视频嵌入为每个类型上下文嵌入分配权重,并通过加权融合得到对应领域的上下文嵌入;将各领域用户个人嵌入、上下文嵌入以及短视频嵌入输入到一个共享特征交叉式双MMoE网络,基于动态学习集成策略,得到各领域点击率预测值。本发明能够解决目前短视频跨域推荐算法忽视不同领域之间的差异,在进行信息迁移的过程中存在负迁移现象的问题。
-
-
-
-
-