-
公开(公告)号:CN113312452B
公开(公告)日:2022-05-27
申请号:CN202110667388.0
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。
-
公开(公告)号:CN114529758A
公开(公告)日:2022-05-24
申请号:CN202210084807.2
申请日:2022-01-25
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提出了一种基于对比学习和多头自注意力机制的多模态情感分析方法,本发明采用预训练模型,对文本和图片进行序列特征提取,之后针对图像采用基于多头自注意力机制的Transformer‑Encoder结构进行二次序列特征提取,然后将文本序列特征和图像序列特征拼接后使用Transformer‑Encoder进行特征提取,得益于自注意力机制,可以帮助文本和图像特征更好的对齐和融合;最后采用多任务学习,辅助模型更好的进行情感分类任务;同时加入两种辅助对比学习任务,帮助模型更好的提取学习文本和图像融合后的特征,帮助模型提升数据情感的区分能力。
-
公开(公告)号:CN113836867A
公开(公告)日:2021-12-24
申请号:CN202110998663.7
申请日:2021-08-27
Applicant: 黑龙江阳光惠远信息技术有限公司 , 哈尔滨工业大学
IPC: G06F40/126 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF‑kernel来转换M,得到矩阵K1至Kk,对于第p个kernel,计算矩阵Kp:对于授权专利文本和未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。所述装置包括向量化编码模块、第一计算模块、转换模块、第二计算模块和预测模块。
-
公开(公告)号:CN111597778A
公开(公告)日:2020-08-28
申请号:CN202010294829.2
申请日:2020-04-15
Applicant: 哈尔滨工业大学
IPC: G06F40/166 , G06F40/232 , G06F40/58
Abstract: 本发明涉及一种基于自监督的机器翻译译文自动优化的方法和系统,属于机器翻译领域。所述方法包括以下步骤:步骤一、使用大规模平行语料对模型进行训练,使模型学习替换操作;步骤二、使用人工构造的伪数据对模型进行训练,使模型学习插入操作,得到训练好的模型;步骤三、使用训练好的模型对待优化的译文中的每个词和词间空隙进行候选词预测,完成替换和插入的后编辑操作。本发明利用双语平行语料作为模型预训练的输入,使得模型在不同机器翻译系统上都能获得良好的优化性能,是一种通用的机器翻译自动后编辑模型。
-
公开(公告)号:CN110335152A
公开(公告)日:2019-10-15
申请号:CN201910621240.6
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06Q40/04
Abstract: 基于标签组合的股市分析方法,本发明涉及股市分析方法。本发明的目的是为了解决现有传统的基本面分析方法需要考虑非常多的信息,以及依赖深度学习的方法以黑盒的方式考虑信息,没有很好的可解释性,模型一旦固定,很难再融合其他信息的问题。过程为:一、定义股票和标签的基本特征;二、建立标签之间的关系以及股票之间的关系;三、判断是否为股票开盘时间,若是,执行四;若否,结束;四、获取当前股票的行情数据;五、基于建立的标签之间的关系、股票之间的关系和获取当前股票的行情数据,选出热门的标签组合,基于热门的标签组合,选出热门的标签;六、将选出的热门标签以网络图的方式展示。本发明用于股市分析领域。
-
公开(公告)号:CN110334300A
公开(公告)日:2019-10-15
申请号:CN201910621253.3
申请日:2019-07-10
Applicant: 哈尔滨工业大学
IPC: G06F16/957 , G06F16/958 , G06F16/34 , G06F17/27
Abstract: 本发明提供面向舆情分析的文本辅助阅读方法,属于自然语言处理技术领域。本发明首先对各种类型网页使用统一方法进行正文抽取;然后对文本进行人物、地点、机构等实体的命名实体识别并突出显示;再对文本进行自动摘要,并将句子按重要度进行排序并突出显示。本发明解决了现有舆情分析人员阅读大量文本资料时存在重点提取困难、阅读效率低下的问题。本发明可用于舆情分析的文本辅助阅读,阅读者能够快速获得主旨信息。
-
公开(公告)号:CN104731774B
公开(公告)日:2018-02-02
申请号:CN201310722090.0
申请日:2013-12-24
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/289
Abstract: 本发明公开了一种面向通用机译引擎的个性化翻译方法及装置。其中,该方法包括:获取用户输入的翻译内容;获取翻译内容的在线翻译结果;基于翻译内容在双语翻译实例库进行相似度检索,获取至少一个翻译实例;使用在线翻译结果对翻译实例进行增量式对齐,生成混淆网络;对混淆网络进行解码,获取翻译候选结果。通过本发明,能够实现提高翻译结果的准确度。
-
公开(公告)号:CN107357789A
公开(公告)日:2017-11-17
申请号:CN201710575907.4
申请日:2017-07-14
Applicant: 哈尔滨工业大学
Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1-3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
-
公开(公告)号:CN104199813B
公开(公告)日:2017-05-24
申请号:CN201410491100.9
申请日:2014-09-24
Applicant: 哈尔滨工业大学
IPC: G06F17/28
Abstract: 本发明涉及一种基于伪反馈的个性化机器翻译系统及方法。现有传统的机器翻译方法无法获得高质量的个性化翻译系统,造成不能满足用户各种翻译需求的问题。本发明翻译系统包括:用短语表过滤模块、输入模块、初步翻译模块、伪反馈检索模块、短语表分类模块和解码器模块。基于伪反馈的个性化机器翻译方法包括:输入过程:用户将翻译任务S输入;初步翻译过程:利用初步翻译模块得到翻译任务的初步机器翻译结果T′;伪反馈检索过程:利用伪反馈检索模块检索得到相似翻译实例的初步翻译结果和标准翻译译文R;短语表分类过程:使训练后的通用后编辑模型变成个性化后编辑模型,再过滤得到优化的个性化后编辑模型;解码器模块解码过程:以优化的个性化后编辑模型对翻译任务的初步机器翻译结果T′进行解码,得到佳化的最终翻译结果。本发明用于机器翻译领域。
-
公开(公告)号:CN105677913A
公开(公告)日:2016-06-15
申请号:CN201610111365.0
申请日:2016-02-29
Applicant: 哈尔滨工业大学
CPC classification number: G06F17/30734 , G06F17/278 , G06F17/2818 , G06F2216/01
Abstract: 一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。
-
-
-
-
-
-
-
-
-