发明授权
- 专利标题: 文本热点提取方法及装置
-
申请号: CN201910260924.8申请日: 2019-04-01
-
公开(公告)号: CN110134942B公开(公告)日: 2020-10-23
- 发明人: 王宇琪 , 孔庆超 , 黄秋曼 , 方省 , 曹家 , 罗引 , 王磊 , 赵菲菲 , 张西娜
- 申请人: 北京中科闻歌科技股份有限公司
- 申请人地址: 北京市海淀区北四环西路9号楼7层715室
- 专利权人: 北京中科闻歌科技股份有限公司
- 当前专利权人: 北京中科闻歌科技股份有限公司
- 当前专利权人地址: 北京市海淀区北四环西路9号楼7层715室
- 代理机构: 北京华夏泰和知识产权代理有限公司
- 代理商 陈英
- 主分类号: G06F40/211
- IPC分类号: G06F40/211 ; G06F40/289 ; G06F16/951 ; G06F16/9535 ; G06F16/35
摘要:
本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
公开/授权文献
- CN110134942A 文本热点提取方法及装置 公开/授权日:2019-08-16