-
公开(公告)号:CN105468780B
公开(公告)日:2019-01-29
申请号:CN201510958361.1
申请日:2015-12-18
Applicant: 北京理工大学
IPC: G06F16/9032 , G06F16/953
Abstract: 本发明涉及一种微博文本中产品名实体的规范化方法及其装置,属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术,本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题,提高了微博文本中产品名实体规范化的性能。
-
公开(公告)号:CN105468780A
公开(公告)日:2016-04-06
申请号:CN201510958361.1
申请日:2015-12-18
Applicant: 北京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30985 , G06F17/30864
Abstract: 本发明涉及一种微博文本中产品名实体的规范化方法及其装置,属于互联网数据处理与分析技术领域。本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,将待规范化的实体和与其最相似的K个词进行知识库的匹配,对其所属的品牌名进行权重的计算;同时引入了微博用户的交互关系和局部上下文中出现的实体信息进行产品实体的规范化。对比现有技术,本发明有效的解决了微博文本中因文本短、上下文信息不足等造成的产品名实体歧义问题,提高了微博文本中产品名实体规范化的性能。
-
公开(公告)号:CN105630768B
公开(公告)日:2018-10-12
申请号:CN201510974820.5
申请日:2015-12-23
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。
-
公开(公告)号:CN105630768A
公开(公告)日:2016-06-01
申请号:CN201510974820.5
申请日:2015-12-23
Applicant: 北京理工大学
IPC: G06F17/27
CPC classification number: G06F17/2765
Abstract: 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。
-
-
-