一种多语言融媒体文本情感分析方法

    公开(公告)号:CN116561325B

    公开(公告)日:2023-10-13

    申请号:CN202310826886.4

    申请日:2023-07-07

    Abstract: 本发明提供一种多语言融媒体文本情感分析方法,属于数据处理技术领域,具体包括:将所述源域语言矢量向量作为输入得到源语言编码器的输出,并通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,采用学习模块和双线性模块对所述目标语言编码器的参数进行校正,直到所述差异满足要求后,得到训练完成后的目标语言编码器;对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理作为综合编码器的输入,采用训练完成的目标语言编码器和源语言编码器构建综合编码器,得到所述目标语言数据的情感分类结果,从而更好的实现了多语言融媒体文本的情感分析工作。

    一种多语言长文本相似性检索与分类工具

    公开(公告)号:CN115630142B

    公开(公告)日:2023-03-14

    申请号:CN202211568520.3

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言长文本相似性检索与分类工具,属于自然语言处理技术领域,具体包括:文本获取模块,文本预处理模块,文本分类预测模块,文本分类结果输出模块;文本获取模块负责对多个不同语言的长文本进行获取;文本预处理模块负责将长文本进行预处理,获得语料,并将语料嵌入到向量空间中,以句子为单位进行语义编码形成句子向量;文本分类预测模块采用多语言空间映射模型预测得到映射后的目标语言向量,并根据不同的目标语言向量间的联合损失函数,确定所述多个不同语言长文本之间的相似度,其中联合损失函数采用infoNCE损失和互信息损失;文本分类结果输出模块长文本之间的相似度,输出分类结果,进而实现了更加准确的匹配结果。

    一种多语言新闻主题词的分词方法

    公开(公告)号:CN115577707A

    公开(公告)日:2023-01-06

    申请号:CN202211568523.7

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言新闻主题词的分词方法,属于数据挖掘技术领域,具体包括:基于新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域,构建模型的源域模块,采集待提取文本的所述临近领域的有标签数据,构建源域数据集,构建目标域模块,将待提取主题词的领域文本视为目标数据集;构建领域文本主题词提取预训练模型,在进行预训练模型训练时,对于不同语种的词向量的表征,分别选择不同的预训练模型,采用迁移成分分析的方法,对预训练模型进行优化,获得邻域文本主题词提取模型,获得待提取领域文本的主题词标签,获取领域文本主题词,从而更好的实现了对多语言的新闻主题词的准确高效分词。

    一种多语言融媒体文本情感分析方法

    公开(公告)号:CN116561325A

    公开(公告)日:2023-08-08

    申请号:CN202310826886.4

    申请日:2023-07-07

    Abstract: 本发明提供一种多语言融媒体文本情感分析方法,属于数据处理技术领域,具体包括:将所述源域语言矢量向量作为输入得到源语言编码器的输出,并通过语言鉴别器确定所述目标语言编码器的输出和源语言编码器的输出的差异,采用学习模块和双线性模块对所述目标语言编码器的参数进行校正,直到所述差异满足要求后,得到训练完成后的目标语言编码器;对所述源域语言数据和翻译完成后的目标语言数据进行数据增强处理作为综合编码器的输入,采用训练完成的目标语言编码器和源语言编码器构建综合编码器,得到所述目标语言数据的情感分类结果,从而更好的实现了多语言融媒体文本的情感分析工作。

    一种多语言混合的新闻价值排序方法

    公开(公告)号:CN115688707B

    公开(公告)日:2023-06-16

    申请号:CN202211568519.0

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言混合的新闻价值排序方法,属于信息处理技术领域,具体包括:将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法得到所述新闻的真实性评估数据;基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据;基于新闻吸引力评估算法得到所述新闻的吸引力评估数据;基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而结合多方面因素实现对新闻价值的定量评价,进而实现了更加准确的推荐顺序排序。

    一种多语言新闻主题词的分词方法

    公开(公告)号:CN115577707B

    公开(公告)日:2023-04-07

    申请号:CN202211568523.7

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言新闻主题词的分词方法,属于数据挖掘技术领域,具体包括:基于新闻的发布时间、题目中的关键词、分类确定待提取文本的临近领域,构建模型的源域模块,采集待提取文本的所述临近领域的有标签数据,构建源域数据集,构建目标域模块,将待提取主题词的领域文本视为目标数据集;构建领域文本主题词提取预训练模型,在进行预训练模型训练时,对于不同语种的词向量的表征,分别选择不同的预训练模型,采用迁移成分分析的方法,对预训练模型进行优化,获得邻域文本主题词提取模型,获得待提取领域文本的主题词标签,获取领域文本主题词,从而更好的实现了对多语言的新闻主题词的准确高效分词。

    一种多语言混合的新闻价值排序方法

    公开(公告)号:CN115688707A

    公开(公告)日:2023-02-03

    申请号:CN202211568519.0

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言混合的新闻价值排序方法,属于信息处理技术领域,具体包括:将多语言混合的新闻文本转换为固定语言的新闻文本内容,基于文本内容真实性评估算法得到所述新闻的真实性评估数据;基于新闻主体可信度评估算法得到所述新闻发布主体的可信度评估数据;基于新闻吸引力评估算法得到所述新闻的吸引力评估数据;基于所述真实性评估数据、所述可信度评估数据、所述吸引力评估数据得到所述新闻的新闻价值评估数据,并基于所述新闻的新闻价值评估数据对所述新闻进行推荐排序,从而结合多方面因素实现对新闻价值的定量评价,进而实现了更加准确的推荐顺序排序。

    一种多语言长文本相似性检索与分类工具

    公开(公告)号:CN115630142A

    公开(公告)日:2023-01-20

    申请号:CN202211568520.3

    申请日:2022-12-08

    Abstract: 本发明提供一种多语言长文本相似性检索与分类工具,属于自然语言处理技术领域,具体包括:文本获取模块,文本预处理模块,文本分类预测模块,文本分类结果输出模块;文本获取模块负责对多个不同语言的长文本进行获取;文本预处理模块负责将长文本进行预处理,获得语料,并将语料嵌入到向量空间中,以句子为单位进行语义编码形成句子向量;文本分类预测模块采用多语言空间映射模型预测得到映射后的目标语言向量,并根据不同的目标语言向量间的联合损失函数,确定所述多个不同语言长文本之间的相似度,其中联合损失函数采用infoNCE损失和互信息损失;文本分类结果输出模块长文本之间的相似度,输出分类结果,进而实现了更加准确的匹配结果。

Patent Agency Ranking