-
公开(公告)号:CN119441503A
公开(公告)日:2025-02-14
申请号:CN202411394749.9
申请日:2024-10-08
Applicant: 北京大学第一医院(北京大学第一临床医学院)
IPC: G06F16/36 , G06F16/33 , G06F16/2458 , G06F16/951 , G06F40/30 , G06F40/284 , G06N20/00
Abstract: 本发明涉及一种领域实体及其关联项的挖掘方法及系统,属于数据挖掘技术领域,解决了现有对标注数据依赖性强且挖掘的实体准确率低的问题。包括获取目标领域的语料预处理后得到领域文本集,从中挖掘出实体及其关联项;将每个实体分别与其每个关联项组成检索关键词,利用网络爬虫抓取搜索引擎的搜索结果,从中提取出每个检索关键词对应的多个搜索文本;计算每个检索关键词与对应的多个搜索文本之间的关联度,以及多个搜索文本之间的聚合度;根据每个检索关键词中实体和关联项的权重以及关联度和聚合度计算出置信度;根据置信度大于置信度阈值的检索关键词的实体和关联项得到领域实体集合和领域关联项集合。实现了高效准确的实体及其关联项的挖掘。