基于电子病历的疾病症状关联分析方法

    公开(公告)号:CN108806767B

    公开(公告)日:2021-10-22

    申请号:CN201810619124.6

    申请日:2018-06-15

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于电子病历的疾病症状关联分析方法,包括获取电子病历的数据并处理;构建不平衡数据集的分类器;采用分类器对疾病症状进行关联分析。本发明通过对电子病历进行处理获取基础数据,然后根据基础数据构造相应的新型不平衡数据集的分类器,再利用该分类器进行疾病与症状的关联分析,因此本发明方法能够对疾病症状进行较为准确的关联,而且方法简答、科学和可靠。

    一种中文拼写错误检查方法

    公开(公告)号:CN115659958A

    公开(公告)日:2023-01-31

    申请号:CN202211679594.4

    申请日:2022-12-27

    Applicant: 中南大学

    Abstract: 本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。

    一种基于多级联合网络的Web攻击检测方法及系统

    公开(公告)号:CN113315789B

    公开(公告)日:2021-10-15

    申请号:CN202110860477.7

    申请日:2021-07-29

    Applicant: 中南大学

    Abstract: 本发明提出了一种基于多级联合网络的Web攻击检测方法及系统,属于Web攻击检测领域,提取若干条http攻击样本的payload特征词;对payload特征词和原始http请求数据分别进行数据预处理;再对预处理后的payload特征词进行分词处理和排序处理,构建异常http攻击载荷词汇表;将异常http攻击载荷词汇表与预处理后的原始http请求数据输入至Word2Vec模型中进行训练得到词向量;计算位置向量,将位置向量与词向量进行拼接得到输入向量;将输入向量输入至由注意力机制模型和卷积神经网络模型构成的多级联合网络模型中,输出检测结果,可提升Web攻击的分类精度。

    一种基于多模态模型的汉字易混淆集构建方法

    公开(公告)号:CN112990353A

    公开(公告)日:2021-06-18

    申请号:CN202110402126.1

    申请日:2021-04-14

    Applicant: 中南大学

    Abstract: 本发明涉及汉字易混淆集构建领域,公开了一种基于多模态模型的汉字易混淆集构建方法。S1:得到字形编码的相似度,S2:得到字音编码的相似度,S3:构建并训练出一个图像分类的神经网络模型,由图像分类的神经网络模型输出一个M维的向量,S4:构建并训练出一个音频分类的神经网络模型,由音频分类的神经网络模型输出一个M维的向量,S5:将汉字字符Ci的字形编码相似度向量、字音编码相似度向量、字形视觉易混淆向量、字音听觉易混淆向量,加权组合为一个向量,作为音形易混淆向量,从而依据音形易混淆向量中每个维度上的相似度,选择对应的字典Dic中的汉字,构成音形易混淆集。本发明能够模拟人的视觉和听觉构建易混淆集。

    一种基于多任务联合训练的机器阅读理解模型的使用方法

    公开(公告)号:CN112269868B

    公开(公告)日:2021-03-09

    申请号:CN202011513956.3

    申请日:2020-12-21

    Applicant: 中南大学

    Abstract: 本发明涉及一种基于多任务联合训练的机器阅读理解模型的使用方法,具体包括如下步骤:S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块;答案抽取模块;答案分类模块;支撑句判别模块;S2:将文本及问题输入文本编码模块,由文本编码模块进行编码,然后输入至答案抽取模块与答案分类模块与支撑句判别模块;S3:由答案抽取模块、答案分类模块与支撑句判别模块输出结果。本发明可以避免文本的重复编码,同时将答案抽取,答案分类,支撑句判别三个模块进行多任务联合训练,相互促进,提升最终的模型表现。

    一种基于关联规则的疫情风险因子识别方法及系统

    公开(公告)号:CN114548646B

    公开(公告)日:2024-11-26

    申请号:CN202111532410.7

    申请日:2021-12-15

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于关联规则的疫情风险因子识别方法,包括步骤:从官方数据源中提取数据;对提取的数据中的非离散型数据进行数据形式变换;对数据形式变换后的数据进行数据挖掘,生成关联规则,并识别出风险因子;先对关联规则进行分析排序,然后对风险因子进行分析,得出风险因子的风险程度;还公开了一种基于关联规则的疫情风险因子识别系统,该系统包括数据提取模块、数据处理模块、数据挖掘模块和综合分析模块;该方法通过对疫情相关数据进行特征分级与标签化,实现了疫情相关数据形式的转换,提高了数据的鲁棒性和延展性,从而可以利用关联规则对大规模、多维度的数据进行数据挖掘和分析,不再受限于数据的规模和维度。

    一种基于关联规则的疫情风险因子识别方法及系统

    公开(公告)号:CN114548646A

    公开(公告)日:2022-05-27

    申请号:CN202111532410.7

    申请日:2021-12-15

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于关联规则的疫情风险因子识别方法,包括步骤:从官方数据源中提取数据;对提取的数据中的非离散型数据进行数据形式变换;对数据形式变换后的数据进行数据挖掘,生成关联规则,并识别出风险因子;先对关联规则进行分析排序,然后对风险因子进行分析,得出风险因子的风险程度;还公开了一种基于关联规则的疫情风险因子识别系统,该系统包括数据提取模块、数据处理模块、数据挖掘模块和综合分析模块;该方法通过对疫情相关数据进行特征分级与标签化,实现了疫情相关数据形式的转换,提高了数据的鲁棒性和延展性,从而可以利用关联规则对大规模、多维度的数据进行数据挖掘和分析,不再受限于数据的规模和维度。

    一种基于情感词嵌入的细粒度情绪分析改进方法

    公开(公告)号:CN109933664B

    公开(公告)日:2021-09-07

    申请号:CN201910182419.6

    申请日:2019-03-12

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于情感词嵌入的细粒度情绪分析改进方法,包括:文本数据集的获取、人工标注及预处理。计算文本数据集中每个单词对应的语义词向量。获取情感词集合。计算训练数据集中每个单词对应的一组情感词组。计算训练数据集中每个单词对应的情绪词向量。构建训练数据集中每个单词对应的情感词嵌入。训练分类器得到细粒度情绪分析模型。本发明利用先验情感知识结合词嵌入模型,并构造适用于细粒度情绪分析的情感词嵌入进行情绪分析。本发明可以更好地识别词语级别的情绪信息,更加精准、细粒度的描述用户的情绪,可以用于细粒度的情绪分析任务,例如:用户的消费习惯分析,用户对商品的评论分析等。

    一种面向短文本的优化分类方法

    公开(公告)号:CN109960799B

    公开(公告)日:2021-07-27

    申请号:CN201910182364.9

    申请日:2019-03-12

    Applicant: 中南大学

    Abstract: 本发明公开了一种面向短文本的优化分类方法,步骤一:获取原始数据集并对其进行预处理;步骤二:对预处理后的数据集进行特征项集的选取;步骤三:利用词向量工具对搜集的大规模语料进行训练得到词向量模型;步骤四:利用词向量模型对特征项集中的每个特征项进行词向量表示,并对特征项的词向量进行一阶段初步聚类得到若干个初步特征簇;步骤五:在每个初步特征簇内部进行二阶段松散聚类得到若干个相似特征簇;步骤六:将步骤四中得到的特征词替换成步骤五中得到的相似特征簇,然后使用分类器进行短文本分类。传统的短文本分类大多缺乏语义表达能力,且特征空间的维度较高,本发明可以更好的表达短文本的语义信息,同时降低特征空间的维度,进而提高短文本分类的精度和效率,可以用于各个领域的短文本分类任务中,例如垃圾短信分类,微博话题分类等。

    电子病历中命名实体的识别方法

    公开(公告)号:CN107527073B

    公开(公告)日:2021-02-26

    申请号:CN201710789885.1

    申请日:2017-09-05

    Applicant: 中南大学

    Abstract: 本发明公开了一种电子病历中命名实体的识别方法,包括构建电子病历的专业领域词典;将电子病历中的文本分类;对包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容,并对测试集进行测试;迭代调整特征模板窗口的大小和特征模板内容,直至得到最终的特征模板窗口的大小和特征模板内容;采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体,大大提高了识别效率,而且能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。

Patent Agency Ranking