藏汉翻译系统的多策略藏语长句切分方法

    公开(公告)号:CN104239294A

    公开(公告)日:2014-12-24

    申请号:CN201410458322.0

    申请日:2014-09-10

    Inventor: 黄河燕 黄静

    Abstract: 本发明公开了一种用于藏汉翻译系统的、对复杂藏语长句进行快速、准确切分的多策略藏语长句切分方法,它包括:接收藏语长句,对每一成分逐个判断,若成分为数字或特殊符号、逗号但无源文模式匹配成功且模式条件满足的逗号切分实例、单词但在特征词索引表中检索不到,或者检索到然而无源文模式匹配成功且模式条件满足的特征词切分实例,则继续判断下一成分,否则记录切分点,切分点之前成分作为切分子句送出,继续判断余下第一个成分。在判断各成分之前先要判断指针当前是否指向空,若是则将余下成分送出结束,否则读取指针当前指向的成分。

    一种双语最大名词组块分离-融合的翻译方法

    公开(公告)号:CN103942192A

    公开(公告)日:2014-07-23

    申请号:CN201310593728.5

    申请日:2013-11-21

    Abstract: 本发明公开了一种双语最大名词组块分离-融合的翻译方法,属于计算机科学中的自然语言处理技术领域。在基于树的统计机器翻译模型的中引入了BMNCs分离-融合翻译的思想,把句子翻译转化为句子中所有双语最大名词组块的翻译和句子骨架的翻译。本方法降低了翻译难度和翻译时间,提升了翻译准确率,尤其适合在即时翻译中针对较长句子的翻译。

    一种基于数字指纹的代码相似度检测方法

    公开(公告)号:CN101976318A

    公开(公告)日:2011-02-16

    申请号:CN201010543747.3

    申请日:2010-11-15

    Abstract: 本发明涉及一种基于数字指纹的代码相似度检测方法,属于计算机应用技术领域。本发明的检测方法包括代码预处理、分词、格式化、采用数字指纹技术进行数值化、计算数字指纹序列和相似度计算六个步骤。本发明计算过程简单,代码相似度检测结果可信度高,能够选取出较有效的代码特征,降低了误判的概率,能够识别多种代码抄袭掩饰手段,采用数字指纹的方法,有效地提高了整体计算速度。

    一种基于高斯核函数的长文本检索方法及系统

    公开(公告)号:CN114328863B

    公开(公告)日:2025-05-06

    申请号:CN202111512377.1

    申请日:2021-12-08

    Abstract: 本发明涉及一种基于高斯核函数的长文本检索方法及系统,属于信息检索技术领域。本方法利用预训练语言模型的语义建模能力计算长文本各段落与用户检索内容的语义相似度,作为用户点击相关性的伪标签,有效缓解了缺乏段落级别标注数据的问题。通过不同的高斯核函数,将伪标签映射为不同维度的相关性得分。利用线性层聚合长文本各段落得分来输出用户检索内容对于长文本整体的相关性得分,能够让不同语义相似度等级的段落为用户点击相关与否做出贡献,增强了语义相似度与用户点击相关性的关联程度,提升了长文本检索模型的准确率。

    一种基于元擦除的证据句自动抽取方法

    公开(公告)号:CN114398467B

    公开(公告)日:2025-02-14

    申请号:CN202111477094.8

    申请日:2021-12-06

    Abstract: 本发明涉及一种基于元擦除的证据句自动抽取方法,属于自然语言处理中的机器阅读理解技术领域。本方法无需人工标注,通过在句子级别进行擦除,根据每句话对答案的贡献程度来进行证据句的选择,实现自动选择证据句,并能够根据提升效果的幅度来评估证据句的选择,从而使多选阅读理解数据集能够根据证据句来解释模型行为。对比现有技术,本方法能够在证据句抽取与标注方面节省大量的时间和人力,并且得到很好的效果。

    一种基于翻译机制的实体和关系联合抽取系统和使用方法

    公开(公告)号:CN114065781B

    公开(公告)日:2024-09-03

    申请号:CN202111303044.8

    申请日:2021-11-05

    Inventor: 黄河燕 尚煜茗

    Abstract: 本发明提出一种基于翻译机制的实体和关系联合抽取系统及其使用方法,该系统利用翻译机制的思想,又规避掉传统翻译机制对对称关系的处理问题;提出利用NA(无关系)关系来作为动态阈值对关系预测的正确和错误结果进行分界。实体标注部分使用四个0/1标注器,对头实体和尾实体独立标注,能够解决单实体重合的问题。对于每一组头尾实体,使用翻译机制的思想利用h+r≈t,用尾实体减去头实体得到关系的向量表示,进而与关系集合中所有关系的向量做相似度计算,利用“与NA关系的相似度”作为动态阈值,取相似度大于该关系的所有关系作为预测结果,这样解决了实体对重叠的问题。在公开数据集上的实验表明,该系统的方法能够达到良好的水平。

    一种基于力引导图的关系抽取方法

    公开(公告)号:CN113761876B

    公开(公告)日:2024-07-19

    申请号:CN202110966548.1

    申请日:2021-08-23

    Abstract: 本发明提出一种基于力引导图的关系抽取方法,包括:接收到句包和实体对;构建出包含语义信息的句向量,并将各个句向量通过注意力机制将其组成句包向量;通过构建关系图,并运用物理学中引力斥力的概念,计算出关系表示矩阵;将关系表示矩阵和句包向量做运算,并将结果用softmax方法进行预测,得到句包中包含各种关系的概率。本发明提供的关系抽取方法及系统能够有效处理全局级别的关系关联,并将其用引力和斥力的概念加以模拟和表示,能够显著减少关系预测时的潜在搜索空间,并提升关系抽取的效率和准确率。

    一种基于网页正文内容的问题式查询推荐方法

    公开(公告)号:CN113836408B

    公开(公告)日:2024-07-16

    申请号:CN202111074829.2

    申请日:2021-09-14

    Abstract: 本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成问题式查询,具体为:以网页正文文本段和关键字作为输入,使用神经网络模型生成一个基于网页正文文本段与关键字相关的问题式查询,重复该过程,得到N个问题式查询。S2,以问题式查询之间的相似度作为衡量标准筛选由S1得到的N个问题式查询,作为查询推荐的最终结果。所述方法在摆脱了对用户检索日志的依赖的同时,能更好的帮助用户表达信息需求。

    一种基于大规模语言模型的低资源实体关系联合抽取方法

    公开(公告)号:CN116933792A

    公开(公告)日:2023-10-24

    申请号:CN202310804621.4

    申请日:2023-07-03

    Abstract: 本发明涉及一种基于大规模语言模型的低资源实体关系联合抽取方法,属于计算机自然语言处理信息抽取技术领域。本方法包括命名实体识别和关系抽取,首先将待抽取的文本和实体类别列表填充到命名实体识别提示模板中,将填充好的提示模板输入到大规模语言模型中,得到实体列表。然后将关系列表填充到关系抽取提示模板中,将命名实体识别的输入、抽取出的实体列表和填充好的关系抽取提示模板输入到大规模语言模型中,从而得到三元组列表。本发明简化了抽取过程,降低了资源消耗,避免了错误传播,提高了抽取效果。

    一种基于语境化注意力网络的关系元学习方法

    公开(公告)号:CN112836007B

    公开(公告)日:2023-01-17

    申请号:CN202110094919.1

    申请日:2021-01-25

    Abstract: 本发明公开了一种基于语境化注意力网络的关系元学习方法,属于知识图谱补全及元学习框架应用技术领域。本方法首先根据知识图谱中的实体和关系在不同的语境中有不同的含义这一特点,通过Transformer编码器得到实体对的语境化嵌入,然后通过注意力网络得到不同实体对的注意力权重,加权求和得到关系元嵌入,最后将关系元嵌入输入到元学习框架中进行训练。本方法降低了知识图谱补全对大规模数据集的依赖,考虑了不同实体对的语境和不平等属性的特点,提升了少样本知识图谱补全方法的性能。

Patent Agency Ranking