-
公开(公告)号:CN117371576A
公开(公告)日:2024-01-09
申请号:CN202311171887.6
申请日:2023-09-12
Applicant: 哈尔滨工业大学
IPC: G06Q10/04 , G06Q50/18 , G06F18/22 , G06F18/23213 , G06F16/35 , G06N3/0464
Abstract: 一种专利授权率预测方法、系统、设备及存储介质,属于信息处理技术领域,解决现有专利审查过程中存在的无法全面检索并使用与专利相关的公开的现有技术从而导致预测的准确率下降的问题。所述方法包括:获取待测专利文献的摘要,对摘要文本进行向量化,得到摘要的向量;计算待测专利文献的余弦和公开专利数据集的余弦相似度;选取N篇与待测专利文献的余弦相似度最高的公开专利,并对其于待测专利文献进行训练,得到处理后文本和选取出的公开专利的向量表示;采集公开专利文献的主题;计算公开专利文献与其主题向量的距离,作为数据分布表示;通过卷积层、池化层和全连接层获得专利授权预测结果。本发明适用于专利授权率的预测场景。
-
公开(公告)号:CN117350306A
公开(公告)日:2024-01-05
申请号:CN202311229851.9
申请日:2023-09-22
Applicant: 哈尔滨工业大学
IPC: G06F40/51 , G06F40/58 , G06N3/0455 , G06N3/088 , G06N3/09 , G06N3/0895 , G06N3/0442
Abstract: 一种基于预训练模型注意力机制的无监督词汇级翻译质量评估方法和系统,涉及词汇级翻译质量评估领域。解决了现有技术对于汇级别对于标注数据的依赖性强的问题。所述方法包括:S1:部署两个多语言预训练模型XLM‑RoBERTa和XLM‑Align,并无需追加训练;S2:获取两个预训练模型的Transformer层的自注意力矩阵;S3:根据所述预训练模型的Transformer层的自注意力矩阵进行逐次分析待评估词汇与其余词汇的注意力权值,将注意力权值作为词汇级翻译的质量评估的评分。本发明应用于人工智能领域。
-
公开(公告)号:CN117291174A
公开(公告)日:2023-12-26
申请号:CN202311149657.X
申请日:2023-09-07
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/289 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 一种基于自定义掩码对象的预训练语言模型优化方法、设备及存储介质,属于自然语言技术领域。解决了预训练语言模型在领域任务中的应用存在一定的领域不适配性、由于领域文本的识别问题使得预训练语言模型在训练时未能学习到足够领域知识而导致领域任务表现不佳的问题。所述方法包括:采集输入文本,采用所述分词工具对所述输入文本进行处理,得到处理后的输入文本;将所述处理后的输入文本采用编码器获得每个位置的字的上下文表示;基于所述上下文表示,采用分类器获得处理后的输入文本的损失函数,并依据所述损失函数进行梯度回传和参数更新,完成对模型的优化。本发明适用于处理专利文献识别处理领域预训练模型的领域化问题。
-
公开(公告)号:CN115183158A
公开(公告)日:2022-10-14
申请号:CN202210801791.2
申请日:2022-07-08
Applicant: 哈尔滨凯纳科技股份有限公司 , 哈尔滨工业大学
IPC: F17D5/02 , F16L55/38 , F16L55/40 , F16L101/30
Abstract: 本发明涉及管道检测技术领域,具体而言,涉及一种管道检测装置及检测方法。其中,一种管道检测装置,包括主体机构、收束机构、检测机构、控制机构、定位机构,所述主体机构包括第一支撑杆和支撑面,所述支撑面设置为伞状结构,所述第一支撑杆的端部和所述支撑面的中心处连接,所述收束机构设置在所述第一支撑杆和所述支撑面之间,且用于调节所述支撑面张开的角度;所述检测机构设置在所述支撑面上;所述定位机构设置在所述支撑面上。采用管道检测装置,可以确定管道内的薄弱点、漏点以及生长环的具体位置,方便施工人员发现管道内的薄弱点,以及时对管道进行预防和加固;方便施工人员发现管道内的漏点和生长环,以及时对管道进行维修和清理。
-
公开(公告)号:CN114861688A
公开(公告)日:2022-08-05
申请号:CN202210614630.2
申请日:2022-05-30
Applicant: 哈尔滨工业大学
IPC: G06F40/58 , G06F40/30 , G06F40/253
Abstract: 本发明提出一种面向低资源机器翻译的平行数据筛选方法及系统。所述方法首先基于语言模型计算平行数据的出现概率,将其作为语法正确性得分,然后基于句子表示方法计算平行数据中源语言句与目标语言句的语义匹配度得分,接下来计算平行数据与对应原数据的N‑Gram片段相异率作为其表达形式多样性得分,三项得分累加后作为该条平行数据的质量评分,最后按照质量评分从高到低对所有平行数据进行排序,并从中选择出一定比例的最高质量的平行数据加入到原语料库中共同训练神经机器翻译模型。所述方法具有提高模型训练速度和改善翻译质量等优点。
-
公开(公告)号:CN114818658A
公开(公告)日:2022-07-29
申请号:CN202210617790.2
申请日:2022-06-01
Applicant: 哈尔滨工业大学
IPC: G06F40/211 , G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于图神经网络和推理路径的文档级关系抽取方法。本发明为了解决在文档级关系抽取中常用的图模型方法只能关注实体局部特征的特点,不能很好的表示两个实体之间全局特征的问题。本发明的具体的步骤为:步骤一、基于启发式的规则将一篇输入的文档转化为图结构;步骤二、利用路径搜索算法在构造图结构中提取出不同实体对之间的多条路径;步骤三、利用神经网络编码器对输入文档编码,并得到图中节点的向量表示,利用图神经网络更新图中节点的向量表示;步骤四、得到图结构中实体对之间的路径信息向量表示;步骤五、对实体对之间的关系进行判断,使用标注好的数据训练深度学习模型。本发明属于自然语言处理领域。
-
公开(公告)号:CN113360606A
公开(公告)日:2021-09-07
申请号:CN202110706335.5
申请日:2021-06-24
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/332 , G06F16/36 , G06F40/216 , G06F40/295 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于Filter的知识图谱问答联合训练方法,该方法通过利用问句作为输入将主实体识别和关系预测两个子任务使用预训练语言模型BERT进行联合学习;将模型进行联合学习后的结果输入到过滤器中,得到适用于不同子任务的词向量表示;利用主实体识别、实体链接和关系预测的词向量表示从问句中识别出主实体,并在知识图谱中找到主实体的三元组,预测关系谓词;通过主实体词和关系谓词从知识图谱中找到答案步骤实现。本发明能够解决知识图谱问答进行联合训练时各个任务会因为彼此的特征冲突导致的学习到的模型会忽略部分任务相关的特征的问题,并通过两类过滤器来确保学习到的模型既能利用任务的关联性,又能注意到任务的差异性。
-
公开(公告)号:CN113343011A
公开(公告)日:2021-09-03
申请号:CN202110682084.1
申请日:2021-06-19
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于两阶段注意力的多模态信息机器翻译方法。步骤1:为每个输入的文本生成通用的图像信息;步骤2:基于步骤1的通用图像信息计算图间注意力和图内注意力,即处理不同重要程度的图片和图片中对文本贡献程度的区域;步骤3:改进步骤2中图间注意力机制和图内注意力机制,使之成为带有去噪效果的、带有采样功能的注意力机制,从而采样图片中对理解上下文有帮助的图片区域;步骤4:对步骤3改进的图间注意力机制和图内注意力机制进行多模态融合,实现多任务共同学习。本发明用以解决多模态信息机器翻译场景下,不同模态信息如何融合的问题。
-
公开(公告)号:CN113312452A
公开(公告)日:2021-08-27
申请号:CN202110667388.0
申请日:2021-06-16
Applicant: 哈尔滨工业大学
IPC: G06F16/33 , G06F16/35 , G06F40/211 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。
-
公开(公告)号:CN113297841A
公开(公告)日:2021-08-24
申请号:CN202110566113.8
申请日:2021-05-24
Applicant: 哈尔滨工业大学
IPC: G06F40/216 , G06F40/284 , G06F40/58 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于预训练双语词向量的神经机器翻译方法,将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练;训练:取预训练得到的双语词向量矩阵初始化翻译模型;将源语言输入编码器,将源语言编码的向量表示及对应目标语言输入解码器输出预测序列,将其与相应的目标序列进行对比并计算损失值,输入优化器对翻译模型参数进行优化;预测:在某个时间步里,将源语言输入优化的编码器,编码器输出相应向量表示,将该向量表示以及上一时间步翻译的目标语言词输入解码器,解码器输出该时间步的目标词,将不同时间步翻译的目标词按时间顺序进行拼接,得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。
-
-
-
-
-
-
-
-
-