-
公开(公告)号:CN114385796A
公开(公告)日:2022-04-22
申请号:CN202111471317.X
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F16/332 , G06K9/62
Abstract: 本发明公开了一种基于fasttext的垃圾信息识别方法,本发明涉及自然语言处理和机器学习领域,结合TF‑IDF算法和fasttext算法,形成新的TF‑fasttext算法提供了对垃圾信息识别的效率。本发明对传统的fasttext算法进行了三个方面的优化。首先将TF‑IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。其次将改进后的TF‑IDF算法与n‑gram模型结合,形成新的TF‑IDF‑N算法对n‑gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。最后在fasttext算法的输出层用层次softmax函数提升了模型判断的精度,而且缩短了样本训练的时间。
-
公开(公告)号:CN114595336A
公开(公告)日:2022-06-07
申请号:CN202111479067.4
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
Abstract: 本发明提出一种基于高斯混合模型的多关系语义翻译模型。首先给出了贝叶斯非参数无限混合嵌入模型,并给出了相应的总体框架。其次给出了该算法的几何角度解释。然后给出了该算法的训练方法。最后,实验分析验证了该算法的有效性,实验结果表明该算法使多关系语义的问题得到有效解决。
-
公开(公告)号:CN114610874A
公开(公告)日:2022-06-10
申请号:CN202111471316.5
申请日:2021-12-04
Applicant: 电子科技大学长三角研究院(湖州)
IPC: G06F16/35
Abstract: 本发明公开了一种基于BERT模型的安全事故标签分类方法,属于自然语言处理领域。本发明首先进行对文本进行预处理,精简文本,提高处理效率;然后使用基于BERT预训练模型实现抽取式文本摘要,使用NEZHA预训练语言模型及PGN模型实现生成式文本摘要;最后通过ALBERT训练模型,借助迁移学习的思想进行多标签多任务分类。可对安全事故及原因分类,为安全生产监管、事故隐患排查和分析奠定基础,实现安全生产事故分类水平的提升。
-
-