一种多粒度答案排序的多文档机器阅读理解方法

    公开(公告)号:CN110647629A

    公开(公告)日:2020-01-03

    申请号:CN201910893027.0

    申请日:2019-09-20

    Abstract: 本发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。

    一种由MIDI到盲文乐谱的翻译方法及系统

    公开(公告)号:CN105931621B

    公开(公告)日:2019-08-20

    申请号:CN201610244257.0

    申请日:2016-04-19

    Abstract: 一种由MIDI到盲文乐谱的翻译方法及系统包括一种由MIDI到盲文乐谱的翻译方法(简称“方法”)和一种由MIDI到盲文乐谱的翻译系统(简称“系统”)。系统的音轨选择模块与MIDI解析模块、五线谱绘制模块以及盲文转换模块相连,MIDI解析模块与五线谱绘制模块相连,五线谱绘制模块与盲文转换模块相连;方法包括1)将MIDI格式数据文件转换成格式化的乐谱数据;2)根据1)乐谱数据绘制五线谱;3)绘制五线谱并生成盲文乐谱。本发明基于MIDI文件获取乐谱数据,根据乐谱同时生成五线谱和盲文乐谱并对照展示;还能够实现根据MIDI数据自动识别调号、识别双附点音符时值、根据强度信息识别弱起小节以及根据速度输出曲风。

    一种融合发音特征汉语-越南语统计机器翻译方法

    公开(公告)号:CN110096715A

    公开(公告)日:2019-08-06

    申请号:CN201910382004.3

    申请日:2019-05-06

    Abstract: 本发明公开了一种融合发音特征汉语-越南语统计机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法通过汉语-越南语平行语料,利用统计得到的汉语拼音声母与越南语的元音、韵母与辅音以及声调之间的相关性,将基于纯汉字的汉语语料转换为汉字辅以拼音-声母-韵母-声调的格式,将基于纯音节的越南语语料转换成音节辅以元音-辅音-声调的格式;再将新格式语料输入机器翻译模型中进行训练,充分利用汉越双语独特的语言规律信息。所述方法降低了稀缺资源统计机器翻译对大规模语料的依赖,解决了传统基于短语的统计机器翻译不能融合发音特征的缺点,提升资源稀缺型语言间的机器翻译性能。

    一种基于领域差异性的新词提取方法

    公开(公告)号:CN105488098B

    公开(公告)日:2019-02-05

    申请号:CN201510711219.7

    申请日:2015-10-28

    Abstract: 本发明涉及一种基于领域差异性的新词提取的方法,属于自然语言处理应用技术领域。本发明首先通过比较不同领域间字分布的差异性,获得差异字种子,然后通过n‑gram方式拓展差异字种子,构建候选词集,接下来根据领域差异大小去除候选词集合中的重复词,最后对候选词集合中每一个词,分别以领域差异值、凝合度,以及成词率作为衡量标准,剔除领域差异较低的候选词得到新词。对比现有技术,本发明通过利用不同语料领域间差异信息,选取种子字,并通过n‑gram拓展获得候选词集合;然后再次利用词本身以及领域间差异信息,自动地选择候选词中的新词,从而明显提高了新词发现的数目和准确度。

    一种基于层叠条件随机场的产品名识别方法及装置

    公开(公告)号:CN105630768B

    公开(公告)日:2018-10-12

    申请号:CN201510974820.5

    申请日:2015-12-23

    Inventor: 黄河燕 杨献祥

    Abstract: 本发明涉及一种基于层叠条件随机场的上下文相关产品名识别方法及装置,属于互联网数据处理与分析技术领域,本发明方法利用词向量方法进行词的表示,并采用向量的相似度度量词的语义相似度,通过词向量结合词聚类的方法融合全局上下文信息;同时针对产品名结构复杂存在嵌套的问题,采用层叠条件随机场模型进行产品名的识别。对比现有技术,本发明有效的解决了产品名识别中上下文信息不足,产品名存在嵌套结构复杂等问题,提高了复杂结构的产品名识别的性能,并且本发明产品名识别的准确率和F1值高于传统方法。

    一种融合三元组知识库的句子实体补全方法

    公开(公告)号:CN108563637A

    公开(公告)日:2018-09-21

    申请号:CN201810328826.9

    申请日:2018-04-13

    Abstract: 一种融合三元组知识库的句子实体补全方法,属于计算机自然语言处理领域。具体操作步骤包含:①构建供模型训练使用的数据集;②将实体、关系、句子模板用向量进行表示;③补全句子中的实体词。本发明提出的融合三元组知识库的句子实体补全方法与已有技术相比较,在针对句子中实体词进行补全时能够考虑待补充实体词与句子中其他实体词之间的关系,有效解决了常规句子补全方法中难以对实体词进行补全的问题。实验表明,本发明提出的方法在采用平均排序(MR)和前10命中率(H@10)的评测指标上有显著提升。

    一种基于训练集相似度的统计机器翻译参数自动选择方法

    公开(公告)号:CN108038110A

    公开(公告)日:2018-05-15

    申请号:CN201711202799.2

    申请日:2017-11-27

    Abstract: 一种基于训练集相似度的统计机器翻译参数自动选择方法,属于机器翻译技术领域。本发明针对基于对数线性模型的统计机器翻译系统提出了一种基于训练集相似度的统计机器翻译特征函数参数选择方法,使计算机可以自动地为不同的测试集数据选择相适应的特征函数参数;本方法主要包含:特征函数参数池构建阶段和测试集数据参数分配两个阶段;阶段一通过对开发集中不同类别的子集进行参数调优训练,得到多组特征函数参数集合,即特征函数参数池,为测试集数据参数分配所用,阶段二根据测试集数据的训练集相似度,从特征函数参数池中选择一组相适应的参数集合;实验结果表明,本发明与不使用参数选择的统计机器翻译方法相比,BLEU测评指标明显提升。

    一种面向机器翻译的多策略英文长句分割方法

    公开(公告)号:CN105068990B

    公开(公告)日:2017-12-19

    申请号:CN201510441708.5

    申请日:2015-07-24

    Abstract: 本发明涉及一种面向机器翻译的多策略英文长句分割方法及装置,属于自然语言处理机器翻译技术领域。该方法包括训练和实际使用两个步骤;对于训练步骤:首先准备英文训练语料,并对其进行预处理;然后对语料进行特征提取,包括提取依存句法特征、词性标注特征以及逗号位置特征等;最后创建特征模版训练CRF模型;同时设计了若干能够较准确地处理简单的现象的规则;对于实际使用步骤,首先对待处理英文长句进行特征提取,提取的特征同训练步骤;之后分别使用规则算法以及CRF模型来标注逗号的位置;然后在所标注的位置添加逗号,完成分割。对比现有技术,通过采用规则与统计相结合的策略,能够有效且准确地分割英文长句,提高机器翻译的质量。

    一种基于词汇语义和句法依存的情感关键句识别方法

    公开(公告)号:CN104281645B

    公开(公告)日:2017-06-16

    申请号:CN201410425148.X

    申请日:2014-08-27

    Abstract: 本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。

    一种基于本体匹配的语义查询方法

    公开(公告)号:CN103744955B

    公开(公告)日:2017-04-05

    申请号:CN201410004084.6

    申请日:2014-01-04

    Abstract: 本发明公开了一种基于本体匹配的语义查询方法,属于计算机应用技术领域。本方法先计算本体资源的名称、注释与用户输入字符串的语义相似度,然后分别将本体类、本体个体、本体属性与用户输入字符串的语义相似度按从大到小排序,选出最符合用户查询要求的不超过λ*3个本体资源。本方法能够在语义层面进行检索,捕捉设计人员检索意图,提高系统检索效率。

Patent Agency Ranking