-
公开(公告)号:CN111104508B
公开(公告)日:2022-07-01
申请号:CN201911023328.4
申请日:2019-10-25
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/335 , G06F16/36
Abstract: 本发明请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。
-
公开(公告)号:CN111104508A
公开(公告)日:2020-05-05
申请号:CN201911023328.4
申请日:2019-10-25
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/335 , G06F16/36
Abstract: 本发明请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。
-
公开(公告)号:CN110705289B
公开(公告)日:2023-03-28
申请号:CN201910930568.6
申请日:2019-09-29
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06N3/084 , G06N5/048
Abstract: 本发明请求保护一种基于神经网络和模糊推理的中文分词方法、系统及介质,包括:101对语料库进行预处理操作;102训练中文词向量;103建立BP神经网络学习模型,进行初步数据预测;104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105基于模糊词关系表示,采用模糊推理计算是否需要分词;106通过建立BP‑模糊推理‑交叉验证模型,对输入的语句进行分词预测。本发明主要是通过公开语料库,建立机器学习模型,再对模糊词进行模糊推理计算,从而能够对输入的文本语句进行分词预测,切实结合当下的技术发展需求。
-
公开(公告)号:CN110705289A
公开(公告)日:2020-01-17
申请号:CN201910930568.6
申请日:2019-09-29
Applicant: 重庆邮电大学
IPC: G06F40/289 , G06N3/08 , G06N5/04
Abstract: 本发明请求保护一种基于神经网络和模糊推理的中文分词方法、系统及介质,包括:101对语料库进行预处理操作;102训练中文词向量;103建立BP神经网络学习模型,进行初步数据预测;104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105基于模糊词关系表示,采用模糊推理计算是否需要分词;106通过建立BP-模糊推理-交叉验证模型,对输入的语句进行分词预测。本发明主要是通过公开语料库,建立机器学习模型,再对模糊词进行模糊推理计算,从而能够对输入的文本语句进行分词预测,切实结合当下的技术发展需求。
-
-
-