基于细粒度匹配信号的文本相关性度量方法和系统

    公开(公告)号:CN109753649A

    公开(公告)日:2019-05-14

    申请号:CN201811466325.3

    申请日:2018-12-03

    Abstract: 本发明涉及一种基于细粒度匹配信号的文本相关性度量方法和系统,包括:获取待语义匹配的两段文本,将该文本中每一个词映射为词向量,根据其中一段文本中每一个词的词向量,与另一段文本中每一个词向量的语义相似度,将所有该语义相似度集合成二维实数矩阵,作为匹配矩阵;将该匹配矩阵中每个元素的语义相似度转换为灰度值,得到灰度图,使用针对二维数据的卷积神经网络结构对该灰度图进行图像模式提取,得到特征图,该特征图经过全连接网络并通过逻辑斯谛函数处理后,得到0-1之间的一个分数,将该分数作为该两段文本之间的相关性。本发明能够构建细粒度匹配信号,提取多层次的匹配模式。在多种不同任务的实际数据集上的效果突出。

    一种基于社交平台元数据的文本主题建模方法及系统

    公开(公告)号:CN115391522A

    公开(公告)日:2022-11-25

    申请号:CN202210921496.0

    申请日:2022-08-02

    Abstract: 本发明提出一种基于社交平台元数据的文本主题建模方法和系统,包括基于文本数据的关键词,构建文本数据的词袋表示;基于文本数据的元数据类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用目标语义提取模型提取文本数据的文本语义表示;基于文本语义表示构造语义约束目标,以语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题‑关键词分布和主题嵌入表示。方法及系统可以对移动应用内广泛存在的短文本消息进行主题建模,提取出主题的关键词并学习得到主题的嵌入表示。

    文本内容的衍生方法、装置、计算机可读介质及电子设备

    公开(公告)号:CN113569539A

    公开(公告)日:2021-10-29

    申请号:CN202110164573.8

    申请日:2021-02-05

    Abstract: 本申请的实施例提供了一种文本内容的衍生方法、装置、计算机可读介质及电子设备。该文本内容的衍生方法包括:获取原始文本内容,基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容;基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架;基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾;本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。

    一种对社交平台上的媒体账号进行画像的方法和系统

    公开(公告)号:CN114077705A

    公开(公告)日:2022-02-22

    申请号:CN202111120139.6

    申请日:2021-09-24

    Abstract: 本发明实施例提供了一种对社交平台上的媒体账号进行画像的方法和系统,该方法包括:获取社交平台的账号信息,识别其中符合第一筛选条件的媒体账号以构建第一集合,采集第一集合内的媒体账号的属性数据和历史贴文数据并存储于数据库,第一筛选条件包括地域条件和媒体类型条件;标注种子媒体账号,根据种子媒体账号从数据库检索符合第二筛选条件的关联媒体账号以共同构建第二集合,第二筛选条件从粉丝数、活跃度、双向信息交流的频次、新闻相关性中的至少一个方面进行筛选;基于第二集合中各个媒体账号的属性数据和历史贴文数据,从多个维度对相应媒体账号进行画像,得到多个维度的指标,并根据多个维度的指标计算媒体价值指数以标识媒体价值。

    一种面向文本的粤语识别模型及系统的训练、识别方法

    公开(公告)号:CN114065749A

    公开(公告)日:2022-02-18

    申请号:CN202111332368.4

    申请日:2021-11-11

    Abstract: 本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。

    一种面向大模型的数据溯源方法及其系统

    公开(公告)号:CN119358670A

    公开(公告)日:2025-01-24

    申请号:CN202411351041.5

    申请日:2024-09-26

    Abstract: 本申请公开了一种面向大模型的数据溯源方法,方法包括:构建待输入大模型的测试样本集合;对于测试数据集合,采用去偏修正方法,计算每个训练样本和测试样本在训练后模型和训练前模型上的去偏影响分数;根据在训练后模型和训练前模型上的去偏影响分数进行去偏计算,获取每条训练数据的最终影响分数,根据最终影响分数,实现数据的溯源分析。本发明在去偏修正方法的基础上还包括了去噪修正方法。本发明实现的影响分数方法能够更有效地评估训练数据溯源方法的准确性和可靠性。

    文本内容的衍生方法、装置、计算机可读介质及电子设备

    公开(公告)号:CN113569539B

    公开(公告)日:2025-04-04

    申请号:CN202110164573.8

    申请日:2021-02-05

    Abstract: 本申请的实施例提供了一种文本内容的衍生方法、装置、计算机可读介质及电子设备。该文本内容的衍生方法包括:获取原始文本内容,基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容;基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架;基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾;本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。

Patent Agency Ranking