-
公开(公告)号:CN112417854A
公开(公告)日:2021-02-26
申请号:CN202011470330.9
申请日:2020-12-15
Applicant: 北京信息科技大学
IPC: G06F40/258 , G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本申请公开了一种中文文档抽取式摘要方法,包括:文本向量化;识别基本篇章单元;抽取摘要句,所述文本向量化,包括:对输入文本进行分句、分词、标识符插入操作,使用中文Bert预处理模型,对文本进行向量化。本申请实施例提供的中文文档抽取式摘要方法,利用Bert模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升了摘要句抽取的准确率。
-
公开(公告)号:CN112528661A
公开(公告)日:2021-03-19
申请号:CN202011470736.7
申请日:2020-12-15
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F40/30
Abstract: 本申请公开了一种实体相似度计算方法,包括:概念相似度计算步骤、距离相似度计算步骤、语义相似度计算步骤以及属性相似度计算步骤。所述概念相似度计算步骤为融合路径权重的实体概念相似度计算步骤。所述语义相似度计算步骤为基于Bert的语义相似度计算步骤。所述属性相似度计算步骤为基于TextRank的属性相似度计算步骤。本申请实施例提供的实体相似度计算方法,利用概念层次和距离来衡量实体之间的差异,利用语义和属性来衡量实体之间的共性,得到的正确率、召回率以及F1值较高,相较于传统的单独使用路径或者概念层次的方法取得了更好的效果。
-
公开(公告)号:CN107766338A
公开(公告)日:2018-03-06
申请号:CN201710969649.8
申请日:2017-10-18
Abstract: 本发明涉及一种体育新闻自动生成方法,包括以下步骤:步骤1)构建语料数据集;步骤2)对语料数据集中的语料进行标注;步骤3)训练生成模型;步骤4)抽取自动识别出的信息,生成体育新闻。本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。
-
公开(公告)号:CN107665356A
公开(公告)日:2018-02-06
申请号:CN201710969648.3
申请日:2017-10-18
Abstract: 本发明涉及一种图像标注方法,包括以下步骤:步骤1)定义图像标注模型的目标函数;步骤2)将图像输入CNN模型,得到原始图像特征;步骤3)对原始图像特征进行加权;步骤4)向LSTM模型中输入信息;步骤5)对预测结果产生的误差进行反向传播。本发明提供的图像标注方法,首先通过卷积神经网络提取图像底层特征,然后使用聚焦机制提取图像特定位置区域与图像标注词相关的图像特征输入到长短期记忆网络模型中,生成相应的预测标注词,最终实现图像标注,标注性能优异,标注精度高,可以很好地满足实际应用的需要。
-
-
-