基于容错粗糙集的词袋模型文本表示方法、系统及介质

    公开(公告)号:CN111104508B

    公开(公告)日:2022-07-01

    申请号:CN201911023328.4

    申请日:2019-10-25

    Abstract: 本发明请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。

    基于容错粗糙集的词袋模型文本表示方法、系统及介质

    公开(公告)号:CN111104508A

    公开(公告)日:2020-05-05

    申请号:CN201911023328.4

    申请日:2019-10-25

    Abstract: 本发明请求保护一种基于容错粗糙集的词袋模型文本表示方法,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类),构建不确定性函数矩阵;104、计算机计算每个基词基于每篇文档的模糊隶属度,构建模糊隶属矩阵;105、计算机基于模糊隶属矩阵,获取每篇文档的上近似和下近似,构建上、下近似矩阵;106、计算机基于两种权重计算方案,构建语料库的文本表示矩阵。本发明主要是通过应用容错粗糙集模型,计算语料库中词语对于每篇文档的模糊隶属度,获得文档的上近似和下近似,构建相应的权重计算方法进行文档表示,切实结合当下的技术发展需求。

    一种基于神经网络和模糊推理的中文分词方法、系统及介质

    公开(公告)号:CN110705289B

    公开(公告)日:2023-03-28

    申请号:CN201910930568.6

    申请日:2019-09-29

    Inventor: 邱东 闫睿腾

    Abstract: 本发明请求保护一种基于神经网络和模糊推理的中文分词方法、系统及介质,包括:101对语料库进行预处理操作;102训练中文词向量;103建立BP神经网络学习模型,进行初步数据预测;104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105基于模糊词关系表示,采用模糊推理计算是否需要分词;106通过建立BP‑模糊推理‑交叉验证模型,对输入的语句进行分词预测。本发明主要是通过公开语料库,建立机器学习模型,再对模糊词进行模糊推理计算,从而能够对输入的文本语句进行分词预测,切实结合当下的技术发展需求。

    一种基于神经网络和模糊推理的中文分词方法、系统及介质

    公开(公告)号:CN110705289A

    公开(公告)日:2020-01-17

    申请号:CN201910930568.6

    申请日:2019-09-29

    Inventor: 邱东 闫睿腾

    Abstract: 本发明请求保护一种基于神经网络和模糊推理的中文分词方法、系统及介质,包括:101对语料库进行预处理操作;102训练中文词向量;103建立BP神经网络学习模型,进行初步数据预测;104将预测产生的模糊词组,使用《知网HowNet》得到模糊词之间的关系;105基于模糊词关系表示,采用模糊推理计算是否需要分词;106通过建立BP-模糊推理-交叉验证模型,对输入的语句进行分词预测。本发明主要是通过公开语料库,建立机器学习模型,再对模糊词进行模糊推理计算,从而能够对输入的文本语句进行分词预测,切实结合当下的技术发展需求。

Patent Agency Ranking