融合多语编码信息的神经机器翻译方法

    公开(公告)号:CN107357789A

    公开(公告)日:2017-11-17

    申请号:CN201710575907.4

    申请日:2017-07-14

    Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1-3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。

    基于伪反馈的个性化机器翻译系统及方法

    公开(公告)号:CN104199813B

    公开(公告)日:2017-05-24

    申请号:CN201410491100.9

    申请日:2014-09-24

    Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。

    基于字节级n元文法的特征提取方法及垃圾邮件过滤器

    公开(公告)号:CN101540017B

    公开(公告)日:2016-08-03

    申请号:CN200910071908.0

    申请日:2009-04-28

    Abstract: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。

    一种基于机器翻译的中文语义知识库的构建方法

    公开(公告)号:CN105677913A

    公开(公告)日:2016-06-15

    申请号:CN201610111365.0

    申请日:2016-02-29

    CPC classification number: G06F17/30734 G06F17/278 G06F17/2818 G06F2216/01

    Abstract: 一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。

    基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统

    公开(公告)号:CN102663123B

    公开(公告)日:2014-09-03

    申请号:CN201210118461.X

    申请日:2012-04-20

    Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。

    基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统

    公开(公告)号:CN102663123A

    公开(公告)日:2012-09-12

    申请号:CN201210118461.X

    申请日:2012-04-20

    Abstract: 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。

    一种机器翻译自动诊断评价方法

    公开(公告)号:CN101520779A

    公开(公告)日:2009-09-02

    申请号:CN200910071818.1

    申请日:2009-04-17

    Abstract: 一种机器翻译自动诊断评价方法,属于机器翻译评价技术。它解决了现有翻译系统的评价方法中存在的只能考察翻译系统对特定单语现象的处理能力、和不能够获得翻译系统的缺陷的问题。它的具体过程为:首先将参考译文和系统译文进行词汇级匹配,然后对于每个目标语词汇利用翻译知识来寻找可能的源语言词汇,然后进行错误识别,并针对每个错误,采用源语言与目标语之间的关系判定其双语类型,进而利用双语特征与翻译知识的关系判定错误的成因。本发明所述的双语错误用源语言句子、参考译文及系统译文中相关联的词汇来表示,并在诊断过程中引入了词汇的语言学特征。本发明的方法能够更加直接的帮助开发者找到并解决翻译系统的内在缺陷。

    一种在不对大语言模型进行微调的情况下提升其在社交领域表现的方法

    公开(公告)号:CN120012931A

    公开(公告)日:2025-05-16

    申请号:CN202510092521.2

    申请日:2025-01-21

    Abstract: 本发明公开了一种在不对大语言模型进行微调的情况下提升其在社交领域表现的方法,属于大语言模型优化技术领域。解决了现有技术中传统的大语言模型在社交领域下生成文本社交质量较差的问题;本发明包括以下步骤:S1.构建大语言模型,采集待生成评论语料及其对应的社交领域语料;S2.通过分析社交领域语料筛选出最高质量的文本,结合向量检索库构建主流社交语言的知识库;S3.通过知识库提升大语言模型性能,将当前待生成评论语料输入大语言模型,输出适合社交环境的生成文本。本发明有效提升了大语言模型在社交领域输出的生成文本的社交质量,且无需对大语言模型自身进行微调,可以应用于通过大语言模型发言。

    一种基于混合专家架构的大语言模型自适应多偏好对齐方法及系统

    公开(公告)号:CN119783748A

    公开(公告)日:2025-04-08

    申请号:CN202411977917.7

    申请日:2024-12-31

    Abstract: 一种基于混合专家架构的大语言模型自适应多偏好对齐方法及系统,涉及人工智能领域。解决了现有技术中需要一种拥有自适应能力的多偏好混合方法促使多偏好研究的落地的问题。所述方法包括:在大语言模型上添加已设计的基于混合专家架构的偏好混合模块;冻结大语言模型中主干网络参数,调节偏好混合模块,获得已合成的偏好数据;确定偏好对齐算法,基于已合成的偏好数据,将分组软损失与偏好对齐算法中的损失函数相结合,获得目标损失函数;使用收集包含多种偏好的的数据集,基于所获得的目标损失函数对大语言模型进行训练,获得偏好平衡的大语言模型。还适用于硬件计算能力的增强和算法改进领域。

Patent Agency Ranking