Patent search ap:("哈尔滨工程大学") AND inv:"邹长明" Page 1

1.

发明公开
一种面向中文医疗文本命名实体识别的方法有权

公开(公告)号：CN111079377A

公开(公告)日：2020-04-28

申请号：CN201911223532.0

申请日：2019-12-03

Applicant: 哈尔滨工程大学

Inventor： 黄少滨 , 张柏嘉 , 申林山 , 李熔盛 , 李轶 , 余日昌 , 颜伟 , 邹长明

IPC: G06F40/117 , G06F40/289 , G06F40/295 , G06F40/279 , G06N3/04

Abstract: 本发明属于医学文本标注技术领域，具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注，在此基础上提出了一种多粒度特征融合的模型，首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中，通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合，并利用ID-CNN-CRF算法训练模型，以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中，同时能较好地解决医疗领域中不同实体之间长度差异较大的问题，并且对于未登录实体的识别有着很好的效果。

2.

发明授权
一种面向中文医疗文本命名实体识别的方法有权

公开(公告)号：CN111079377B

公开(公告)日：2022-12-13

申请号：CN201911223532.0

申请日：2019-12-03

Applicant: 哈尔滨工程大学

Inventor： 黄少滨 , 张柏嘉 , 申林山 , 李熔盛 , 李轶 , 余日昌 , 颜伟 , 邹长明

IPC: G06F40/117 , G06F40/289 , G06F40/295 , G06F40/279 , G06N3/04

Abstract: 本发明属于医学文本标注技术领域，具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注，在此基础上提出了一种多粒度特征融合的模型，首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中，通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合，并利用ID‑CNN‑CRF算法训练模型，以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中，同时能较好地解决医疗领域中不同实体之间长度差异较大的问题，并且对于未登录实体的识别有着很好的效果。

3.

发明授权
一种领域文本主题抽取方法有权

公开(公告)号：CN112836507B

公开(公告)日：2022-12-09

申请号：CN202110039892.6

申请日：2021-01-13

Applicant: 哈尔滨工程大学

Inventor： 邹长明 , 黄少滨 , 申林山 , 李熔盛 , 何荣博

IPC: G06F40/289 , G06F16/36 , G06F16/35

Abstract: 本发明属于文本主题抽取技术领域，具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型，并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层，形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成，审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布，然后由狄利克雷分布为主题的多项分布，审计方法的多项分布和词语的多项分布分配参数，利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型，在提取出的主题中加入了审计方法的信息，降低了主题间重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。

4.

发明公开
一种领域文本主题抽取方法有权

公开(公告)号：CN112836507A

公开(公告)日：2021-05-25

申请号：CN202110039892.6

申请日：2021-01-13

Applicant: 哈尔滨工程大学

Inventor： 邹长明 , 黄少滨 , 申林山 , 李熔盛 , 何荣博

IPC: G06F40/289 , G06F16/36 , G06F16/35

Abstract: 本发明属于文本主题抽取技术领域，具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型，并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层，形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成，审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布，然后由狄利克雷分布为主题的多项分布，审计方法的多项分布和词语的多项分布分配参数，利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型，在提取出的主题中加入了审计方法的信息，降低了主题间重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。

Patent Agency Ranking