-
公开(公告)号:CN109960799B
公开(公告)日:2021-07-27
申请号:CN201910182364.9
申请日:2019-03-12
Applicant: 中南大学
IPC: G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明公开了一种面向短文本的优化分类方法,步骤一:获取原始数据集并对其进行预处理;步骤二:对预处理后的数据集进行特征项集的选取;步骤三:利用词向量工具对搜集的大规模语料进行训练得到词向量模型;步骤四:利用词向量模型对特征项集中的每个特征项进行词向量表示,并对特征项的词向量进行一阶段初步聚类得到若干个初步特征簇;步骤五:在每个初步特征簇内部进行二阶段松散聚类得到若干个相似特征簇;步骤六:将步骤四中得到的特征词替换成步骤五中得到的相似特征簇,然后使用分类器进行短文本分类。传统的短文本分类大多缺乏语义表达能力,且特征空间的维度较高,本发明可以更好的表达短文本的语义信息,同时降低特征空间的维度,进而提高短文本分类的精度和效率,可以用于各个领域的短文本分类任务中,例如垃圾短信分类,微博话题分类等。
-
公开(公告)号:CN107527073B
公开(公告)日:2021-02-26
申请号:CN201710789885.1
申请日:2017-09-05
Applicant: 中南大学
Abstract: 本发明公开了一种电子病历中命名实体的识别方法,包括构建电子病历的专业领域词典;将电子病历中的文本分类;对包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容,并对测试集进行测试;迭代调整特征模板窗口的大小和特征模板内容,直至得到最终的特征模板窗口的大小和特征模板内容;采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体,大大提高了识别效率,而且能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。
-
公开(公告)号:CN107527073A
公开(公告)日:2017-12-29
申请号:CN201710789885.1
申请日:2017-09-05
Applicant: 中南大学
Abstract: 本发明公开了一种电子病历中命名实体的识别方法,包括构建电子病历的专业领域词典;将电子病历中的文本分类;对包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容,并对测试集进行测试;迭代调整特征模板窗口的大小和特征模板内容,直至得到最终的特征模板窗口的大小和特征模板内容;采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体,大大提高了识别效率,而且能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。
-
公开(公告)号:CN109960799A
公开(公告)日:2019-07-02
申请号:CN201910182364.9
申请日:2019-03-12
Applicant: 中南大学
Abstract: 本发明公开了一种面向短文本的优化分类方法,步骤一:获取原始数据集并对其进行预处理;步骤二:对预处理后的数据集进行特征项集的选取;步骤三:利用词向量工具对搜集的大规模语料进行训练得到词向量模型;步骤四:利用词向量模型对特征项集中的每个特征项进行词向量表示,并对特征项的词向量进行一阶段初步聚类得到若干个初步特征簇;步骤五:在每个初步特征簇内部进行二阶段松散聚类得到若干个相似特征簇;步骤六:将步骤四中得到的特征词替换成步骤五中得到的相似特征簇,然后使用分类器进行短文本分类。传统的短文本分类大多缺乏语义表达能力,且特征空间的维度较高,本发明可以更好的表达短文本的语义信息,同时降低特征空间的维度,进而提高短文本分类的精度和效率,可以用于各个领域的短文本分类任务中,例如垃圾短信分类,微博话题分类等。
-
-
-