电子病历中命名实体的识别方法

    公开(公告)号:CN107527073A

    公开(公告)日:2017-12-29

    申请号:CN201710789885.1

    申请日:2017-09-05

    Applicant: 中南大学

    Abstract: 本发明公开了一种电子病历中命名实体的识别方法,包括构建电子病历的专业领域词典;将电子病历中的文本分类;对包含命名实体的文本进行实体标注,同时将标注后的文本作为训练集,未标注的文本作为测试集;初步设定条件随机场模型中的特征模板窗口的大小和特征模板内容,并对测试集进行测试;迭代调整特征模板窗口的大小和特征模板内容,直至得到最终的特征模板窗口的大小和特征模板内容;采用条件随机场模型对所有的电子病历进行命名实体的识别。本发明方法能够自动识别电子病历的命名实体,大大提高了识别效率,而且能够不断改善条件随机场模型的精度和模型识别度,能够更加精确和快速的进行实体识别。

    网络大数据长文本多标签分类方法、系统、设备及介质

    公开(公告)号:CN113836308A

    公开(公告)日:2021-12-24

    申请号:CN202111417986.9

    申请日:2021-11-26

    Applicant: 中南大学

    Abstract: 本公开实施例中提供了一种网络大数据长文本多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取原始数据集;对原始数据集进行分析构建每个标签对应的关键词表后进行预处理,得到文本数据;将文本数据转换为字向量和词向量,并计算文本数据内不同词对应的位置向量;得到嵌入向量;将嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取编码向量的特征,得到文本数据中每个词的关联性,并形成分类结果。通过本公开的方案,通过构建关键词表将多标签长文本分割,并将文本数据转换为不同向量后进行编码,再利用自注意力机制提取特征得到每个词的关联性,形成分类结果,提高了分类效率和精准度。

    一种基于多级联合网络的Web攻击检测方法及系统

    公开(公告)号:CN113315789A

    公开(公告)日:2021-08-27

    申请号:CN202110860477.7

    申请日:2021-07-29

    Applicant: 中南大学

    Abstract: 本发明提出了一种基于多级联合网络的Web攻击检测方法及系统,属于Web攻击检测领域,提取若干条http攻击样本的payload特征词;对payload特征词和原始http请求数据分别进行数据预处理;再对预处理后的payload特征词进行分词处理和排序处理,构建异常http攻击载荷词汇表;将异常http攻击载荷词汇表与预处理后的原始http请求数据输入至Word2Vec模型中进行训练得到词向量;计算位置向量,将位置向量与词向量进行拼接得到输入向量;将输入向量输入至由注意力机制模型和卷积神经网络模型构成的多级联合网络模型中,输出检测结果,可提升Web攻击的分类精度。

    一种基于多任务联合训练的机器阅读理解模型的使用方法

    公开(公告)号:CN112269868A

    公开(公告)日:2021-01-26

    申请号:CN202011513956.3

    申请日:2020-12-21

    Applicant: 中南大学

    Abstract: 本发明涉及一种基于多任务联合训练的机器阅读理解模型的使用方法,具体包括如下步骤:S1:建立基于多任务学习的阅读理解模型,将阅读理解任务分为多个子任务,设计多个子模块分别进行处理,并进行多任务联合训练,其中子模块包括文本编码模块;答案抽取模块;答案分类模块;支撑句判别模块;S2:将文本及问题输入文本编码模块,由文本编码模块进行编码,然后输入至答案抽取模块与答案分类模块与支撑句判别模块;S3:由答案抽取模块、答案分类模块与支撑句判别模块输出结果。本发明可以避免文本的重复编码,同时将答案抽取,答案分类,支撑句判别三个模块进行多任务联合训练,相互促进,提升最终的模型表现。

    基于图模型和膨胀卷积神经网络的交通事件要素抽取算法

    公开(公告)号:CN110781393A

    公开(公告)日:2020-02-11

    申请号:CN201911013059.3

    申请日:2019-10-23

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于图模型和膨胀卷积神经网络的交通事件要素抽取算法,包括步骤一利用爬虫技术爬取微博数据;步骤二针对交通事件文本的特点,对爬取到的文本做特定的预处理;步骤三:融合深度学习中的doc2vec技术与传统机器学习中的tf-idf(term frequency-inverse document frequency)技术将文本向量化,然后通过文本相似性构建交通事件文本图模型;步骤四:利用标签传播算法,对未标记的文本进行标记;步骤五:利用膨胀卷积神经网络(Iterated Dilated Convolutions Neural Network,IDCNN)和条件随机场(Conditional Random Filed,CRF)实现交通事件要素的提取。本发明不仅可以利用少量的微博文本标签信息通过标签传播算法来识别交通事件文本,也能抽取交通事件文本中的时间要素、地点要素、车辆要素、后果要素,同时可以识别未收录的交通地点名称。

    一种面向短文本的优化分类方法

    公开(公告)号:CN109960799A

    公开(公告)日:2019-07-02

    申请号:CN201910182364.9

    申请日:2019-03-12

    Applicant: 中南大学

    Abstract: 本发明公开了一种面向短文本的优化分类方法,步骤一:获取原始数据集并对其进行预处理;步骤二:对预处理后的数据集进行特征项集的选取;步骤三:利用词向量工具对搜集的大规模语料进行训练得到词向量模型;步骤四:利用词向量模型对特征项集中的每个特征项进行词向量表示,并对特征项的词向量进行一阶段初步聚类得到若干个初步特征簇;步骤五:在每个初步特征簇内部进行二阶段松散聚类得到若干个相似特征簇;步骤六:将步骤四中得到的特征词替换成步骤五中得到的相似特征簇,然后使用分类器进行短文本分类。传统的短文本分类大多缺乏语义表达能力,且特征空间的维度较高,本发明可以更好的表达短文本的语义信息,同时降低特征空间的维度,进而提高短文本分类的精度和效率,可以用于各个领域的短文本分类任务中,例如垃圾短信分类,微博话题分类等。

    不平衡数据集的分类方法
    18.
    发明公开

    公开(公告)号:CN108830321A

    公开(公告)日:2018-11-16

    申请号:CN201810618637.5

    申请日:2018-06-15

    Applicant: 中南大学

    CPC classification number: G06K9/6267 G06K9/6256

    Abstract: 本发明公开了一种不平衡数据集的分类方法,包括获取训练数据并得到训练数据的候选频繁项集;对候选频繁项集进行过滤;将候选关联规则分类至规则集合中;衡量规则前件和后件的相关性得到分类关联规则;对得到的分类关联规则进行过滤和排序从而得到分类器;采用分类器对不平衡数据进行分类。本发明方法结合了增比置信度、负关联规则挖掘、增比率和规则强度定义,通过多种因素的结合,能更全面的衡量规则的优先级,因此本发明方法能够在不平衡数据集中有很好的分类效果,在保证整体分类效果的情况下,能够有效提高分类效果,而且本发明方法简单可靠。

    一种中文拼写错误检查方法

    公开(公告)号:CN115659958B

    公开(公告)日:2023-03-21

    申请号:CN202211679594.4

    申请日:2022-12-27

    Applicant: 中南大学

    Abstract: 本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。

    网络大数据长文本多标签分类方法、系统、设备及介质

    公开(公告)号:CN113836308B

    公开(公告)日:2022-02-18

    申请号:CN202111417986.9

    申请日:2021-11-26

    Applicant: 中南大学

    Abstract: 本公开实施例中提供了一种网络大数据长文本多标签分类方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取原始数据集;对原始数据集进行分析构建每个标签对应的关键词表后进行预处理,得到文本数据;将文本数据转换为字向量和词向量,并计算文本数据内不同词对应的位置向量;得到嵌入向量;将嵌入向量输入空洞门卷积层进行编码,得到编码向量;根据自注意力机制模型提取编码向量的特征,得到文本数据中每个词的关联性,并形成分类结果。通过本公开的方案,通过构建关键词表将多标签长文本分割,并将文本数据转换为不同向量后进行编码,再利用自注意力机制提取特征得到每个词的关联性,形成分类结果,提高了分类效率和精准度。

Patent Agency Ranking