一种基于多粒度融合与Bert筛选的中文文本自动校对方法

    公开(公告)号:CN113221542A

    公开(公告)日:2021-08-06

    申请号:CN202110348599.8

    申请日:2021-03-31

    Abstract: 本发明涉及一种基于多粒度融合与Bert筛选的中文文本自动校对方法,属于自然语言处理技术领域;本发明通过结合字粒度与词粒度级别的校对模型,以期能够利用不同粒度级别的信息。字粒度模型采用集成规则生成候选集与Bert筛选的方法,词粒度采用传统方法,先构建候选集,然后使用N‑Gram模型计算句子困惑度取最佳候选。另外该方法还解决了多字少字等错误类型问题。实验结果验证了该方法能有效提高检错纠错的召回率,有效提升校对模型性能。对比现有技术,本发明规避了字粒度校对模型和词粒度校对模型带来的局限性,基于多粒度融合与Bert筛选通过两种粒度有效结合不同层次信息,通过N‑Gram LM打分与Bert进行筛选,能够有效提高错误的召回率和校对的准确率。

    基于深度神经网络的新闻流行度预测模型训练方法

    公开(公告)号:CN110083699B

    公开(公告)日:2021-01-12

    申请号:CN201910202638.6

    申请日:2019-03-18

    Abstract: 本发明提出了一种基于深度神经网络的新闻流行度预测模型训练方法,包括:获取特定主题设定时间段的新闻文章数据,用Pandas进行数据清洗后按照设定时间长度进行顺次分组,获取按时间顺序排列得到新闻流行度序列;依据所述新闻流行度序列,从第一个流行度开始依次按照采样长度为w的连续序列作为输入样本,并采样其之后一期的数据作为输出样本,构建训练样本集;随机从训练样本集中选择训练样本对基于LSTM网络的新闻流行度预测模型进行训练,并采用Pearson相关系数进行关联性分析删除不良的训练样本,循环训练过程至训练结束。本发明可以获得用来对无趋势性、无季节性及非线性新闻流行度进行较高准确率预测的新闻流行度预测模型。

    一种使用自述式提示与集成梯度的语义贡献识别方法及系统

    公开(公告)号:CN119990134A

    公开(公告)日:2025-05-13

    申请号:CN202411808989.9

    申请日:2024-12-10

    Abstract: 本发明提供一种使用自述式提示与集成梯度的语义贡献识别方法及系统,包括:获取输入数据并编写特定的问题提示;将所述问题提示多次输入至预设的大语言模型,引导大语言模型自动识别并报告在决策过程中起到关键作用的词汇,生成关键词提议集合;基于所述关键词提议集合抽取关键词,生成第一语义贡献度列表;基于所述输入数据通过预设的公式进行集成梯度计算,生成第二语义贡献度列表;将所述第一语义贡献度列表和第二语义贡献度列表进行整合分析,确定对大语言模型决策有重大影响的词汇。本发明解决了现有技术中大语言模型行为解释单一方法的局限性问题,提高了模型解释的全面性和准确性,满足了在多种自然语言处理应用中对可解释性的要求。

    一种基于关键传播结构感知的意见领袖识别方法和装置

    公开(公告)号:CN114297498B

    公开(公告)日:2024-10-15

    申请号:CN202111638795.5

    申请日:2021-12-29

    Abstract: 本发明通过网络技术处理领域的方法,实现了一种基于关键传播结构感知的意见领袖识别方法和装置。方法基于神经网络算法,设计用户双重特征提取模块和关键传播结构挖掘模块两个逻辑模块组成,通过输入微博中不同话题数据,得到输入数据中具有代表性特征的意见领袖及关联关系输出。本发明设计基于节点中心度的消息传递机制,充分结合了节点在拓扑结构中的重要性,构造了一个新的图神经网络模型提取社交网络中用户的特征。首次利用图分类任务挖掘不同事件中的关键结构信息,在挖掘社交网络中top‑k个意见领袖的同时能够从节点连通性、节点相似度、节点中心度三个角度学习意见领袖之间潜在的联系,构造网络中的关键传播结构。

    受雇网络写手的识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN118410403A

    公开(公告)日:2024-07-30

    申请号:CN202410654244.5

    申请日:2024-05-24

    Abstract: 本公开涉及互联网信息处理技术领域,尤其涉及受雇网络写手的识别方法、装置、计算机设备及存储介质;方法包括:在获取到网络用户和各网络用户之间的关联关系后,以网络用户为节点,以关联关系为边构建了第一知识图谱,并将第一知识图谱输入至预训练的图神经网络模型中,最终得到各网络用户分别对应的类别标签,完成对网络用户的识别;在利用图神经网络模型对各网络节点进行识别时,将网络节点之间的关联关系以及与各网络节点相邻的节点信息也考虑进去,使得最终得到的类别标签具有更高的准确性,相较于当前仅根据用户信息对网络用户进行识别的方式,根据本方案识别方法得到的识别结果具有更强的说服力。

    神经机器翻译模型的训练方法、翻译方法及装置

    公开(公告)号:CN115345181A

    公开(公告)日:2022-11-15

    申请号:CN202210786892.7

    申请日:2022-07-04

    Abstract: 本发明提供一种神经机器翻译模型的训练方法、翻译方法及装置,所述训练方法包括:构建神经机器翻译模型;将双语平行句对中的源语言句子和目标语言句子,以及知识图谱中每个三元组中的头实体和尾实体进行细粒度切分,得到标准源语言句子序列、标准目标语言句子序列以及知识图谱中每个三元组中的标准头实体‑关系序列和标准尾实体序列;将其输入编解码模块中预测得到目标语言句子序列以及尾实体序列;基于标准目标语言句子序列和预测的目标语言句子序列之间的交叉熵,以及知识图谱中每个三元组中的标准尾实体序列与预测的尾实体序列之间的交叉熵,共同训练该模型。本发明能够有效融合细粒度知识推断,提升神经机器翻译对于实体的翻译质量。

Patent Agency Ranking