-
公开(公告)号:CN111709251B
公开(公告)日:2023-04-07
申请号:CN202010537236.4
申请日:2020-06-12
IPC: G06F40/30 , G06F40/289 , G06F40/216 , G06F16/35 , G06F18/22
Abstract: 兼具通用语义及领域语义的形式概念相似性快速度量方法,主要用于利用FCA方法进行文本信息检索中的形式概念相似性快速度量,属于信息检索技术领域。为解决现有形式概念相似性判断方法无法包含数据集所涵盖的领域信息问题以及计算内涵语义相似性的过程过于复杂等问题。本发明通过数据集的主题聚类,统计各个词共属类别的次数;利用概念格成员的属性频率和逆概念频率求取基于成员的重要性的两个概念相似性;内涵中每个属性使用基于公共语料的词向量表示,并取其均值作为内涵向量;使用各个词共属类别的次数修正内涵向量的相似性,获得两内涵包含通用和领域语义的相似性;综合基于成员重要性的相似性和内涵语义相似性,得到两个形式概念的相似性。
-
公开(公告)号:CN111709251A
公开(公告)日:2020-09-25
申请号:CN202010537236.4
申请日:2020-06-12
IPC: G06F40/30 , G06F40/289 , G06F40/216 , G06F16/35 , G06K9/62
Abstract: 兼具通用语义及领域语义的形式概念相似性快速度量方法,主要用于利用FCA方法进行文本信息检索中的形式概念相似性快速度量,属于信息检索技术领域。为解决现有形式概念相似性判断方法无法包含数据集所涵盖的领域信息问题以及计算内涵语义相似性的过程过于复杂等问题。本发明通过数据集的主题聚类,统计各个词共属类别的次数;利用概念格成员的属性频率和逆概念频率求取基于成员的重要性的两个概念相似性;内涵中每个属性使用基于公共语料的词向量表示,并取其均值作为内涵向量;使用各个词共属类别的次数修正内涵向量的相似性,获得两内涵包含通用和领域语义的相似性;综合基于成员重要性的相似性和内涵语义相似性,得到两个形式概念的相似性。
-