一种面向中文医疗文本命名实体识别的方法

    公开(公告)号:CN111079377A

    公开(公告)日:2020-04-28

    申请号:CN201911223532.0

    申请日:2019-12-03

    Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID-CNN-CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

    一种面向中文医疗文本命名实体识别的方法

    公开(公告)号:CN111079377B

    公开(公告)日:2022-12-13

    申请号:CN201911223532.0

    申请日:2019-12-03

    Abstract: 本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。

    一种领域文本主题抽取方法

    公开(公告)号:CN112836507B

    公开(公告)日:2022-12-09

    申请号:CN202110039892.6

    申请日:2021-01-13

    Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

    一种领域文本主题抽取方法

    公开(公告)号:CN112836507A

    公开(公告)日:2021-05-25

    申请号:CN202110039892.6

    申请日:2021-01-13

    Abstract: 本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

Patent Agency Ranking