一种小样本场景下的自然语言理解方法

    公开(公告)号:CN113326360B

    公开(公告)日:2022-12-13

    申请号:CN202110447496.7

    申请日:2021-04-25

    Abstract: 本发明提出一种小样本场景下的自然语言理解方法,所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义,使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的;本发明的方法能够在小样本的场景下更好的判断出问题的意图,并识别出问题的槽位,从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。

    一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法

    公开(公告)号:CN115034216A

    公开(公告)日:2022-09-09

    申请号:CN202210606979.1

    申请日:2022-05-31

    Abstract: 本发明提出了一种基于图模型和词嵌入模型面向新闻领域的关键词抽取方法,本发明首先需要将新闻文本进行清洗,去除其中无用信息;然后通过文本处理模块,得到新闻文本中的潜在关键词和词频信息;之后采用图模型和预训练的词嵌入模型对关键词进行语义空间映射,最后融合前述两个模型对关键词的排序分布获得最后关键的分布,从而获得新闻文本关键词;本发明能够改进新闻文本关键词提取的精度,进一步提高舆情分析系统在针对新闻文本分析时内容检索的准确性,更为全面地覆盖新闻文本的主要信息,节省人工复核的时间。

    基于多任务学习的篇章级文本连贯性分类方法

    公开(公告)号:CN113312452B

    公开(公告)日:2022-05-27

    申请号:CN202110667388.0

    申请日:2021-06-16

    Abstract: 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步骤3、构建句子排序任务,使用该任务对篇章级文本的整体向量表示进行调整;步骤4、根据调整后的篇章级文本整体向量表示通过分类器得到文本连贯性分类。通过上述方法解决了现有技术中的问题,所述方法对信息检索以及自然语言处理中的多任务学习、作文自动评分、文档向量化等方向有着重要作用。

    一种专利文本可授权性预测方法及装置

    公开(公告)号:CN113836867A

    公开(公告)日:2021-12-24

    申请号:CN202110998663.7

    申请日:2021-08-27

    Abstract: 本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF‑kernel来转换M,得到矩阵K1至Kk,对于第p个kernel,计算矩阵Kp:对于授权专利文本和未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。所述装置包括向量化编码模块、第一计算模块、转换模块、第二计算模块和预测模块。

    一种基于自监督的机器翻译译文自动优化的方法和系统

    公开(公告)号:CN111597778A

    公开(公告)日:2020-08-28

    申请号:CN202010294829.2

    申请日:2020-04-15

    Abstract: 本发明涉及一种基于自监督的机器翻译译文自动优化的方法和系统,属于机器翻译领域。所述方法包括以下步骤:步骤一、使用大规模平行语料对模型进行训练,使模型学习替换操作;步骤二、使用人工构造的伪数据对模型进行训练,使模型学习插入操作,得到训练好的模型;步骤三、使用训练好的模型对待优化的译文中的每个词和词间空隙进行候选词预测,完成替换和插入的后编辑操作。本发明利用双语平行语料作为模型预训练的输入,使得模型在不同机器翻译系统上都能获得良好的优化性能,是一种通用的机器翻译自动后编辑模型。

    基于标签组合的股市分析方法

    公开(公告)号:CN110335152A

    公开(公告)日:2019-10-15

    申请号:CN201910621240.6

    申请日:2019-07-10

    Abstract: 基于标签组合的股市分析方法,本发明涉及股市分析方法。本发明的目的是为了解决现有传统的基本面分析方法需要考虑非常多的信息,以及依赖深度学习的方法以黑盒的方式考虑信息,没有很好的可解释性,模型一旦固定,很难再融合其他信息的问题。过程为:一、定义股票和标签的基本特征;二、建立标签之间的关系以及股票之间的关系;三、判断是否为股票开盘时间,若是,执行四;若否,结束;四、获取当前股票的行情数据;五、基于建立的标签之间的关系、股票之间的关系和获取当前股票的行情数据,选出热门的标签组合,基于热门的标签组合,选出热门的标签;六、将选出的热门标签以网络图的方式展示。本发明用于股市分析领域。

    面向舆情分析的文本辅助阅读方法

    公开(公告)号:CN110334300A

    公开(公告)日:2019-10-15

    申请号:CN201910621253.3

    申请日:2019-07-10

    Abstract: 本发明提供面向舆情分析的文本辅助阅读方法,属于自然语言处理技术领域。本发明首先对各种类型网页使用统一方法进行正文抽取;然后对文本进行人物、地点、机构等实体的命名实体识别并突出显示;再对文本进行自动摘要,并将句子按重要度进行排序并突出显示。本发明解决了现有舆情分析人员阅读大量文本资料时存在重点提取困难、阅读效率低下的问题。本发明可用于舆情分析的文本辅助阅读,阅读者能够快速获得主旨信息。

    融合多语编码信息的神经机器翻译方法

    公开(公告)号:CN107357789A

    公开(公告)日:2017-11-17

    申请号:CN201710575907.4

    申请日:2017-07-14

    Abstract: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1-3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。

Patent Agency Ranking