-
公开(公告)号:CN112632963A
公开(公告)日:2021-04-09
申请号:CN202011501395.5
申请日:2020-12-17
Applicant: 绍兴达道生涯教育信息咨询有限公司 , 杭州电子科技大学
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/04
Abstract: 本发明提供了一种基于政府工作报告的中文隐喻信息知识库构建方法,属于自然语言处理技术领域。本发明能够提高利用深度学习模型进行中文隐喻识别分类,其能够提取对应人工标签下每个训练文本中话语的隐喻特征,并对多个隐喻特征进行拼接,将拼接后的隐喻特征输入到分类器中,得到词表中的词语是否属于隐喻的分类结果。同时本发明能根据识别结果进行词性分类,并按照分类结果分别确定其源域和目标域,形成隐喻知识文本,从而实现中文隐喻知识库的自动构建。本发明针对政府工作报告的隐喻特点,通过预先对文本数据进行合并和人工标签分类,能够大大降低模型噪声,提高政府工作报告中中文隐喻识别准确度以及识别效率。
-
公开(公告)号:CN114021575A
公开(公告)日:2022-02-08
申请号:CN202111223636.9
申请日:2021-10-20
Applicant: 杭州电子科技大学
IPC: G06F40/30 , G06F16/35 , G06F40/211 , G06F40/216 , G06K9/62
Abstract: 本发明公开了一种基于语义匹配和密度聚类的中文隐喻释义方法,包括步骤:对于一个隐喻句,我们首先确定源域和目标域;针对目标域和源域构建候选词集合;将候选词集合中的候选词、目标域和源域获取词向量表示,然后分别计算候选词与目标域与源域的语义相似度,并分别计算候选词与目标域和源域互信息,再统计候选词在已有语料库中出现的频率;最后利用候选词的语义相似度、互信息和频率信息获取最终匹配得分,采用DBSCAN聚类方法对候选词进行聚类,并按最终匹配得分进行排序,得到最佳释义词列表。本发明解决了目前专门的中文隐喻释义的数据比较匮乏的问题,能够利用无监督学习方法对中文文本中出现的隐喻进行合理的解释。
-
公开(公告)号:CN114021575B
公开(公告)日:2025-03-04
申请号:CN202111223636.9
申请日:2021-10-20
Applicant: 杭州电子科技大学
IPC: G06F40/30 , G06F40/211 , G06F40/216 , G06F16/355 , G06F18/22 , G06F18/2321
Abstract: 本发明公开了一种基于语义匹配和密度聚类的中文隐喻释义方法,包括步骤:对于一个隐喻句,我们首先确定源域和目标域;针对目标域和源域构建候选词集合;将候选词集合中的候选词、目标域和源域获取词向量表示,然后分别计算候选词与目标域与源域的语义相似度,并分别计算候选词与目标域和源域互信息,再统计候选词在已有语料库中出现的频率;最后利用候选词的语义相似度、互信息和频率信息获取最终匹配得分,采用DBSCAN聚类方法对候选词进行聚类,并按最终匹配得分进行排序,得到最佳释义词列表。本发明解决了目前专门的中文隐喻释义的数据比较匮乏的问题,能够利用无监督学习方法对中文文本中出现的隐喻进行合理的解释。
-
-