-
公开(公告)号:CN110083835A
公开(公告)日:2019-08-02
申请号:CN201910334804.8
申请日:2019-04-24
Applicant: 北京邮电大学
IPC: G06F17/27
Abstract: 本发明实施例提供了一种基于图和词句协同的关键词提取方法及装置,其中方法包括:基于从待提取关键词的文本中得到的候选词和句子,计算每两个候选词对应的扩散度,基于扩散度计算无向有权图中每两个候选词之间边的第一权重,再基于第一权重计算各候选词的第一指标,计算有向有权图中每两个句子之间边的第二权重,基于第二权重计算各句子的第二指标,基于句子的第二指标得到句子的第一指标向量,进而基于各候选词的第一指标和所得到的第一指标向量构建各候选词的包含该候选词第五指标的第二指标向量,再基于第二指标向量中各第五指标的大小顺序,提取文本中的关键词。本发明实施例,能够提高提取文本中关键词的准确程度。
-
公开(公告)号:CN109918660A
公开(公告)日:2019-06-21
申请号:CN201910160266.5
申请日:2019-03-04
Applicant: 北京邮电大学
IPC: G06F17/27
Abstract: 本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置,方法包括:对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
-
公开(公告)号:CN109918660B
公开(公告)日:2021-03-02
申请号:CN201910160266.5
申请日:2019-03-04
Applicant: 北京邮电大学
IPC: G06F40/289 , G06F40/216
Abstract: 本申请实施例提供了一种基于文本排列TextRank的关键词提取方法和装置,方法包括:对待处理文本进行预处理,得到多个候选词,根据预设的扩散度计算公式,计算每两个候选词在待处理文本中的扩散度,将扩散度和该两个候选词的共现次数的乘积,作为该两个候选词对应的节点之间的边的权重,根据计算得到的各权重,构建多个候选词对应的文本网络,并根据预设的迭代公式对文本网络中各节点的得分进行迭代计算,当满足预设收敛条件时,将各节点中得分最高的预设数目个节点对应的候选词,作为待处理文本的关键词。基于上述处理,在共现次数的基础上,结合候选词的扩散度确定节点之间的边的权重,进而能够提高提取到的关键词的准确度。
-
-