基于两两对齐的多语种句对齐方法及装置

    公开(公告)号:CN103617160A

    公开(公告)日:2014-03-05

    申请号:CN201310674134.7

    申请日:2013-12-11

    Abstract: 基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。

    一种信息过滤系统
    72.
    发明授权

    公开(公告)号:CN101908055B

    公开(公告)日:2013-02-13

    申请号:CN201010118656.5

    申请日:2010-03-05

    Abstract: 一种信息过滤系统,涉及到一种信息过滤技术。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题,本发明的优化lam%的信息分类阈值的设定方法为:设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。本发明的信息过滤系统中包括用于存储垃圾信息和正常信息的特征及其权重信息的特征权重库;用于根据用户的反馈信息调整/更新特征权重库中的特征及其权重的训练器;用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息的过滤器。

    一种基于思维链的大模型安全防护方法

    公开(公告)号:CN119989408A

    公开(公告)日:2025-05-13

    申请号:CN202510062744.4

    申请日:2025-01-15

    Abstract: 本发明是一种基于思维链的大模型安全防护方法,适用于增强各类大语言模型的防御能力且无需额外的后训练开销。本发明涉及大模型安全防护技术领域,通过大语言模型安全防御系统提示词增强,确保生成安全的回复;基于零样本思维链的安全防御后缀,应对越狱攻击;通过计算越狱攻击成功率,来对大语言模型的安全性进行评估。本发明采用的基于思维链的大语言模型安全防护方法包含了安全系统提示词和零样本思维链两部分。本发明不引入额外的计算成本,而是充分利用大语言模型的推理能力来抵御越狱攻击,极大地增强了大语言模型的安全防护能力,确保大模型在不同应用场景下的稳定运行和安全使用。

    一种基于LoRA嵌入的指令数据挖掘方法和系统

    公开(公告)号:CN117556251B

    公开(公告)日:2025-03-18

    申请号:CN202311332989.1

    申请日:2023-10-16

    Abstract: 一种基于LoRA嵌入的指令数据挖掘方法和系统,涉及指令数据挖掘领域。解决了常见的通过模型生成的指令数据往往重复性较高,类似的指令数据反复出现,数据集同质化和冗余的情况较为普遍的问题。所述方法包括:采用LoRA的方式对ShareGPT数据集进行训练,获取所述ShareGPT数据集中指令数据的嵌入表示;通过UMAP算法对所述嵌入表示进行降维,获取每个指令在三维空间中的表示;根据最小化指令数据在三维空间中的密度对每个指令表示进行筛选,获取多样性增强的数据子集。本发明应用于人工神经网络训练领域。

    一种基于情感增强的语音大语言模型翻译强化方法

    公开(公告)号:CN119378574A

    公开(公告)日:2025-01-28

    申请号:CN202411408324.9

    申请日:2024-10-10

    Abstract: 一种基于情感增强的语音大语言模型翻译强化方法,涉及人工智能领域。解决现有技术中缺少如何高效地将语音模态信息融入到现有的大语言模型中,使其完成端到端的语音自动翻译任务。所述方法包括:收集包含多种情感表达的语音与文本对的多语言数据集,并进行预处理,构成原文语音与文本和译文语音与文本的多语言语料对;将多语言语料对的语音部分输入到语音大语言模型中,令语音大语言模型对其进行翻译;使用情感契合度打分模型对步骤2中的翻译结果进行评估,判断翻译结果中的语音情感与原文语音与文本的多语言语料对中的情感是否一致;使用打分模型为同一问题的不同结果进行打分,根据分数从高到低排序进行DPO算法,更新语音大语言模型的参数。

    一种基于思维链的跨语言多文档摘要评价方法

    公开(公告)号:CN118467719A

    公开(公告)日:2024-08-09

    申请号:CN202410663888.0

    申请日:2024-05-27

    Abstract: 本发明公开了一种基于思维链的跨语言多文档摘要评价方法,属于自然语言处理技术领域。解决了现有技术中传统的跨语言多文档摘要评价方法忽视生成摘要与原文之间的事实一致性导致的评价质量较低的问题;本发明提取给定的源语言文档集合中每个源语言文档的事实性关键信息,提取生成的跨语言多文档摘要中每个摘要的事实性关键信息;对源语言答案和目标语言答案进行平均度量,得到信息覆盖度得分;计算跨语言多文档摘要中提取的所有事实性关键信息即所有陈述的一致性得分的平均值,得到事实一致性分数;将信息覆盖度得分与事实一致性得分进行融合,得到综合评价分数。本发明有效提升了跨语言多文档摘要评价方法的精度和效率,可以应用于摘要评估。

    一种基于模型认知校验的多跳推理知识编辑方法

    公开(公告)号:CN118364912A

    公开(公告)日:2024-07-19

    申请号:CN202410482904.6

    申请日:2024-04-22

    Abstract: 本申请公开了一种基于模型认知校验的多跳推理知识编辑方法,属于知识编辑技术领域,包括:S100构建推理模型和文本相似性评估模型;S200获取多跳推理问题并拆解出单跳推理子问题,针对单跳推理子问题生成预设回答;S300通过文本相似性评估模型检索与单跳推理子问题相关的若干外部知识;S400计算预设回答的生成序列与模型认知的相关度,根据相关度从若干外部知识中筛选出目标外部知识,通过目标外部知识对生成的预设回答进行修正,并输出修正后的预设回答;S500判断是否完成多跳推理问题,若是,结束推理过程,否则,返回步骤S200。本申请提供的方法在多跳推理问答任务中多跳推理性能更强。

    基于语义空间共享的知识图谱问答系统

    公开(公告)号:CN111897944B

    公开(公告)日:2024-03-22

    申请号:CN202010827800.6

    申请日:2020-08-17

    Abstract: 基于语义空间共享的知识图谱问答系统,它属于中文知识图谱问答技术领域。本发明解决了现有知识图谱问答系统中各模块之间信息共享不足,导致获得的答案实体的准确率有限的问题。本发明利用问句主实体识别子模块,实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型,通过将联合训练好的模型嵌入各子模块,以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体,通过各子模块之间的语义信息共享,可以有效提高获得的答案实体的准确率。通过实验证明,采用本发明方法获得的答案实体的准确率可以达到86.64%。本发明可以应用于知识图谱问答。

    一种面向多语言大模型的词语表示学习方法

    公开(公告)号:CN116956889A

    公开(公告)日:2023-10-27

    申请号:CN202310622720.0

    申请日:2023-05-30

    Abstract: 本发明提出一种面向多语言大模型的词语表示学习方法。所述方法在表示能力上能够显著高于主流的静态和动态词向量模型。本发明突破性地将单语词的向量表示改进为多点的流形表示。这种新的框架有望增加词向量空间的整体容量,更好地应对一词多义与细微上下文含义变化的场景。从流形学习与模式匹配的这一观点出发,充分利用现有的语言模型,挖掘词的空间表征能力,提高词语表示空间的完整性,使语言空间和词空间具有形式统一的表示。

Patent Agency Ranking