-
公开(公告)号:CN110245275B
公开(公告)日:2023-09-01
申请号:CN201910521164.1
申请日:2019-06-18
Applicant: 中电科大数据研究院有限公司 , 贵州华云创谷科技有限公司 , 长沙军民先进技术研究有限公司
IPC: G06F16/9032 , G06F16/951 , G06F16/9535
Abstract: 本发明公开了一种大规模相似新闻标题快速归一化方法,所述方法包括:S1、预处理新闻标题数据;S2、将与任意给定新闻标题相关的新闻标题数据进行排序;S3、计算相关新闻标题与该新闻标题之间相似度并排序;S4、比较相关新闻标题中最大相似度值与设定相似度阈值并判断索引中是否存在相似新闻标题,若存在则将最大相似度新闻标题MD5值作为该新闻标题归一化序列码,若不存在则进入步骤S5;S5、计算该新闻标题MD5值,作为其归一化序列码与其内容存入索引中;S6、重复步骤S2和S5,完成所有新闻标题的归一化映射。本发明可以快速找出相关的新闻标题并做出相似性判定,然后将相似新闻标题映射成唯一的归一化序列码,实现了大规模相似新闻标题的快速归一化。
-
公开(公告)号:CN110119444B
公开(公告)日:2023-06-30
申请号:CN201910330573.3
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/34 , G06F40/205 , G06F40/242 , G06F40/284 , G06F40/30 , G06N3/0442 , G06N3/0455
Abstract: 本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
-
公开(公告)号:CN110909881B
公开(公告)日:2022-11-04
申请号:CN201911061280.6
申请日:2019-11-01
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种面向跨媒体知识推理任务的知识表示方法,该方法包括:抽取跨媒体知识图谱的RDF三元组信息,将跨媒体知识图谱RDF三元组数据表示为初始的低维向量;利用最大间隔成本函数训练正负例三元组样本之间的向量表示,同时挖掘正负例三元组样本间的相似性(或差异性),添加到最大间隔成本函数中,提高模型知识推理识别相似实体的能力。本发明能够对基于RDF构建的跨媒体知识图谱三元组进行知识表示和知识推理,利用本发明学习到的知识推理模型进行实体链接和知识分类,能够提高跨媒体知识图谱中的链接预测和三元组分类的准确度。
-
公开(公告)号:CN110119444A
公开(公告)日:2019-08-13
申请号:CN201910330573.3
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
-
公开(公告)号:CN109360136A
公开(公告)日:2019-02-19
申请号:CN201811033314.6
申请日:2018-09-05
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种政务数据统一融合系统,包括数据融合层,用于多源政务数据融合;所述数据融合层包括数据采集处理模块、数据级精细化融合模块、特征级态势融合模块、政务决策级融合模块、人工决策调整模块、数据管理模块;本发明通过多源政务数据采集,解决多源政务数据不确定性、模糊性和冲突性的问题,形成政务数据融合数据库,提高政务数据精度,为政务数据融合挖掘提供数据支撑。
-
公开(公告)号:CN110866129A
公开(公告)日:2020-03-06
申请号:CN201911061277.4
申请日:2019-11-01
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/48
Abstract: 本发明针对跨媒体检索问题,提出了一种基于跨媒体统一表征模型的跨媒体检索方法,包括以下步骤:(1)跨媒体数据库构建,建立面向政务新闻领域大跨媒体数据库;(2)跨媒体数据预处理,文本、图像、视频和音频等数据的输入预处理;(3)跨媒体数据原域特征提取,跨媒体数据的原域特征向量提取;(4)跨媒体数据统一表征,跨媒体数据在共同表示空间的特征向量提取;(5)数据检索语义相似度计算与排序,检索目标数据与跨媒体数据库中数据语义相似度计算,并排序输出结果。本发明不仅提出了一种支持四种媒体数据的相互检索方法,同时提出多种媒体数据的统一表征模型,提高了跨媒体语义检索精度,具有关阔的应用前景。
-
公开(公告)号:CN110569405A
公开(公告)日:2019-12-13
申请号:CN201910790828.4
申请日:2019-08-26
Applicant: 中电科大数据研究院有限公司
IPC: G06F16/9032 , G06F16/9035 , G06F16/906 , G06F16/951 , G06F17/27 , G06Q50/26
Abstract: 本发明提供了一种基于BERT的政务公文本体概念抽取方法,包括以下步骤:(1)获取政务公文数据;(2)对公开的政务公文数据进行文本数据预处理;(3)建立术语的语言学规则;(4)进行公文本体术语提取;(5)估计公文本体术语的类别数目;(6)针对公文本体术语,进行词向量表示;(7)完成术语的聚类;(8)抽取公文本体概念;(9)实现本体概念抽取效果的评估与验证。本发明统筹政务工作的有效技术手段,为政务公务的共享交换、信息检索、信息抽取、政务图谱构建等应用提供强有力的支撑与保障,并提高了公文术语的聚类效果,为公文本体概念抽取的精度提供坚实的保障和支持。
-
公开(公告)号:CN110909881A
公开(公告)日:2020-03-24
申请号:CN201911061280.6
申请日:2019-11-01
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种面向跨媒体知识推理任务的知识表示方法,该方法包括:抽取跨媒体知识图谱的RDF三元组信息,将跨媒体知识图谱RDF三元组数据表示为初始的低维向量;利用最大间隔成本函数训练正负例三元组样本之间的向量表示,同时挖掘正负例三元组样本间的相似性(或差异性),添加到最大间隔成本函数中,提高模型知识推理识别相似实体的能力。本发明能够对基于RDF构建的跨媒体知识图谱三元组进行知识表示和知识推理,利用本发明学习到的知识推理模型进行实体链接和知识分类,能够提高跨媒体知识图谱中的链接预测和三元组分类的准确度。
-
公开(公告)号:CN110245275A
公开(公告)日:2019-09-17
申请号:CN201910521164.1
申请日:2019-06-18
Applicant: 中电科大数据研究院有限公司 , 贵州华云创谷科技有限公司 , 长沙军民先进技术研究有限公司
IPC: G06F16/9032 , G06F16/951 , G06F16/9535
Abstract: 本发明公开了一种大规模相似新闻标题快速归一化方法,所述方法包括:S1、预处理新闻标题数据;S2、将与任意给定新闻标题相关的新闻标题数据进行排序;S3、计算相关新闻标题与该新闻标题之间相似度并排序;S4、比较相关新闻标题中最大相似度值与设定相似度阈值并判断索引中是否存在相似新闻标题,若存在则将最大相似度新闻标题MD5值作为该新闻标题归一化序列码,若不存在则进入步骤S5;S5、计算该新闻标题MD5值,作为其归一化序列码与其内容存入索引中;S6、重复步骤S2和S5,完成所有新闻标题的归一化映射。本发明可以快速找出相关的新闻标题并做出相似性判定,然后将相似新闻标题映射成唯一的归一化序列码,实现了大规模相似新闻标题的快速归一化。
-
公开(公告)号:CN110163110A
公开(公告)日:2019-08-23
申请号:CN201910329733.2
申请日:2019-04-23
Applicant: 中电科大数据研究院有限公司
Abstract: 本发明提供了一种基于迁移学习和深度特征融合的行人重识别方法,包括以下步骤:预训练-人体姿态矫正和分割-特征向量-深度特征融合-训练模型-测试模型-识别结果。本发明通过利用深度卷积神经网络提取行人全局和局部特征,对两种特征进行深度融合获得最终的行人特征表征,然后在深度卷积神经网络训练过程中,采用迁移学习的方式进而获得效果更好的行人重识别网络模型,最终使得行人重识别网络模型提取的特征具有更强的分辨能力,从而达到提升行人重识别准确率的目的。
-
-
-
-
-
-
-
-
-