-
公开(公告)号:CN110427457A
公开(公告)日:2019-11-08
申请号:CN201910570843.8
申请日:2019-06-28
Applicant: 厦门美域中央信息科技有限公司
Inventor: 肖清林
Abstract: 一种基于ANN的数据库文本分类中的特征选择方法,其特征在于,包括以下具体步骤:使用文本样本集合及其文本类别,通过ANN人工神经网络训练获得文本分类模型;建立文本分类模型的集合,对不同的文本分类模型设置用于比较的特征关键词;获取待分类的文本,对待分类文本进行预处理,获取待分类文本的特征项集合;确定特征项集合中每一个特征项的实体属性和在待分类文本中出现的频率;根据特征项出现的频率设置权重;根据关联度的高低,对特征项进行排序;计算相似度;之后将待分类文本输入相似度最高的文本分类模型中;本发明中通过ANN训练得出多个分类模型,并提取分类模型的特征关键词和待分类文本的特征项,通过比对选择最合适的分类模型。
-
公开(公告)号:CN110377904A
公开(公告)日:2019-10-25
申请号:CN201910555817.8
申请日:2019-06-25
Applicant: 厦门美域中央信息科技有限公司
Inventor: 肖清林
Abstract: 一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:S1、采集整理相关词语并建立语料库;S2、根据词语信息对语料库进行实时更新;S3、对词语进行采集和预处理;S4、对预处理后的词语进行识别分析;S5、根据语料库对采集的词语进行近义词辨析;S6、对近义词辨析结果进行统计确认。本发明对信息近义词辨析精准且辨析效率高。
-
公开(公告)号:CN110321434A
公开(公告)日:2019-10-11
申请号:CN201910565070.4
申请日:2019-06-27
Applicant: 厦门美域中央信息科技有限公司
Inventor: 肖清林
Abstract: 一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:配置已确定词义的歧义词库;获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;确定语句中各个词语的词性;确定消歧目标词;确定目标词的词义并进行消歧处理;对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;确定目标语句中词语的关键度;确定目标语句的关键度;根据语句的关键度对语句进行排序,得到目标文本;利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。本发明能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。
-
-