-
公开(公告)号:CN106202068B
公开(公告)日:2019-01-22
申请号:CN201610590241.5
申请日:2016-07-25
Applicant: 哈尔滨工业大学
Abstract: 基于多语平行语料的语义向量的机器翻译方法,本发明涉及机器翻译方法。本发明是要解决双语平行语料获得的语义信息通常较少的问题。本发明是通过一、输入平行的源语言1、2以及目标语言;二、根据公式(1)到公式(6)计算得到隐状态h′和h″;三、计算得到的向量c,四、生成目标语言;或者一、输入源语言1、2以及目标语言;二、计算向量c1和向量c2的归一化之后的余弦距离;三、衡量向量c1和向量c2的相似性;四、令dis(c1,c2)大于阈值δ;给定源语言1句子集合S1和源语言2句子集合S2,即表示为如下约束最优化问题:五、建立最终目标函数等步骤实现的。本发明应用于机器翻译领域。
-
公开(公告)号:CN107329960B
公开(公告)日:2019-01-01
申请号:CN201710514935.5
申请日:2017-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法,属于词语翻译设备和方法技术领域。本发明提出的未登录词翻译装置通过查找模块、候选词提供模块、特征抽取模块、评价模块、排序模块和替换模块实现神经网络翻译工作,本发明提出的未登录词翻译装置解决了现有翻译装置和方法翻译准确度低的问题,并有效提高了神经网络翻译中未登录词翻译的准确度,同时,其适用于各种神经网络翻译领域。
-
公开(公告)号:CN108960319A
公开(公告)日:2018-12-07
申请号:CN201810700571.4
申请日:2018-06-29
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种面向全局的机器阅读理解建模中的候选答案筛选方法,属于计算机信息筛选技术领域。所述方法将问题对应的所有段落作为候选答案片段定位范围,首先,获取段落的文本片段间的F1值,利用F1筛选出最佳候选答案片段,另一方面,提取段落和问题之间的特征后,利用逻辑回归模型进行相关性打分处理后,根据分数获得筛选后的候选答案段落集合,然后判断所述最佳候选答案片段所在段落是否将所述候选答案段落集合中,并将所述最佳候选答案片段所在段落强制放在所述候选答案段落集合的首位,最终输出所述最佳候选答案片段和所述候选答案段落集合。所述方法具有提高训练和预测效率等优点。
-
公开(公告)号:CN108920472A
公开(公告)日:2018-11-30
申请号:CN201810722720.7
申请日:2018-07-04
Applicant: 哈尔滨工业大学
Abstract: 本发明涉及一种基于深度学习的机器翻译系统的融合系统及方法,属于词汇融合技术领域。所述融合系统包括输入模块、编码模块、解码模块和输出模块;所述融合方法包括输入步骤、编码步骤、解码步骤和输出步骤;所述融合系统及方法具有提高机器翻译系统融合性能指标的特点。
-
公开(公告)号:CN107301226B
公开(公告)日:2018-06-15
申请号:CN201710469901.9
申请日:2017-06-20
Applicant: 哈尔滨工业大学
Abstract: 本发明提出了一种问答系统中检索子模块的自动评价方法,属于模块自评价方法技术领域。通过针对检索出来的文档列表,根据其中每个位置上的文档与问题、与参考答案之间的相关程度(由各种特征表示),通过机器学习模型(具体是GBDT),准确估计出这个检索结果的MAP值,从而完成最终的评价过程。具有评价确定度高,评价方法简洁等特点。适用于各种问答系统中检索子模块的自评价。
-
公开(公告)号:CN103605644B
公开(公告)日:2017-02-01
申请号:CN201310636884.5
申请日:2013-12-02
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 一种基于相似度匹配的枢轴语言翻译方法和装置,本发明属于机器翻译技术领域,涉及一种基于相似度匹配的枢轴语言翻译方法和装置。解决现有翻译方法和装置在源语言-目标语翻译规则库构建中要求源语言到枢轴语的翻译规则与该枢轴语到目标语的翻译规则,中的枢轴语短语必须完全相同而导致的潜在翻译规则丢失问题。通过用向量表示枢轴语短语并利用向量夹角余弦值对枢轴语进行匹配关联,建立源语言-目标语翻译规则库,通过源语言-目标语翻译规则库进行自然语言翻译。并根据上述步骤功能模块化制成基于相似度匹配的枢轴语言翻译装置。本发明用于自然语言翻译。
-
公开(公告)号:CN105550174A
公开(公告)日:2016-05-04
申请号:CN201511023540.2
申请日:2015-12-30
Applicant: 哈尔滨工业大学
IPC: G06F17/28
CPC classification number: G06F17/289
Abstract: 基于样本重要性的自动机器翻译领域自适应方法,本发明涉及语言翻译领域,具体涉及一种自动机器翻译领域的自适应方法。为了解决现有的翻译系统的自适应方法不能充分利用训练语料中的领域信息的问题,本发明首先对训练样本添加权重,然后通过统计的方法得到训练样本源语言句子的一元词频分布,使用训练样本源语言句子的一元词频分布计算目标领域文本的句子概率并建立样本权重向量的似然函数,求解最优样本权重向量,确定目标领域文本所属的领域;依据短语对及其翻译概率生成基于样本权重向量的翻译规则,提高翻译系统领域适应性;能够得到具有领域适应能力的翻译系统。本发明适用于语言翻译领域。
-
公开(公告)号:CN103020046A
公开(公告)日:2013-04-03
申请号:CN201210566217.X
申请日:2012-12-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
CPC classification number: G06F17/28 , G06F17/2863
Abstract: 基于人名起源分类的人名音译方法,它涉及一种翻译系统。本发明解决了中英人名音译中不同起源国家人名的音译模式不一致问题。本方法如下:一、人名起源分类;二、线性插值系统融合。本发明提出的方法将logistic多分类回归模型应用到人名起源分类中,并根据人名构成用字特征的特征模板进行人名起源分类;对于每一种起源的人名类别训练一个特定的音译(翻译)模型,再对多个音译模型的结果进行系统融合,实现双语人名互译。
-
公开(公告)号:CN120067241A
公开(公告)日:2025-05-30
申请号:CN202510107858.6
申请日:2025-01-23
Applicant: 哈尔滨工业大学
IPC: G06F16/332 , G06F16/3329 , G06F16/355 , G06F16/36 , G06N3/045 , G06N3/084 , G06N3/09 , G06N5/04
Abstract: 本发明公开了一种基于样例反馈的大语言模型自动提示优化方法,属于大语言模型提示优化技术领域。解决了现有技术中传统的提示优化方法难以实现自动化调优的问题;本发明构建基于大语言模型的提示优化模块,输入预处理后的输入数据,对其进行基于样例反馈的提示优化,得到修改后的提示;构建基于大语言模型的提示精简模块,对修改后的提示中的超长提示进行精简和改写,得到更新后的提示,传输至提示优化模块进行迭代,得到优化后的提示;构建基于大语言模型的局部搜索模块,对优化后的提示进行局部搜索与调优,得到最优提示。本发明有效提升了针对提示优化的大语言模型的性能,可以应用于采用大语言模型进行自动提示优化。
-
公开(公告)号:CN115034216B
公开(公告)日:2025-05-13
申请号:CN202210606979.1
申请日:2022-05-31
Applicant: 哈尔滨工业大学
IPC: G06F40/289 , G06F40/284 , G06F40/205 , G06F16/953 , G06F18/22 , G06F18/213 , G06F18/24 , G06F18/25 , G06N3/0442 , G06N3/08
Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。
-
-
-
-
-
-
-
-
-