-
公开(公告)号:CN113220823A
公开(公告)日:2021-08-06
申请号:CN202010072425.9
申请日:2020-01-21
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/33 , G06F16/31 , G06F40/30 , G06F40/242 , G06F40/289 , G06F40/205 , G06Q50/00 , G06Q50/26
Abstract: 本申请涉及一种面向社交媒体公共言论的情感、话题及观点分析方法,该方法包括:获取与公共事件对应的媒体报道信息以及公众舆论内容;按照第一预设策略分析所述媒体报道信息得到第一分析结果,按照第二预设策略分析所述公众舆论内容得到第二分析结果;对比所述第一分析结果和第二分析结果确定所述媒体报道信息与所述公众舆论内容的差异程度;根据所述差异程度规划所述公共事件的报道议程。该技术方案通过对网络公共事件的媒体报道信息以及公众舆论进行对比分析,能够得到公众对公众事件的观点以及情感倾向,并根据公众的观点以及情感倾向规划公共事件的报道议程,以此不仅可以更好了解公众的意愿,还能促进社交媒体平台的健康发展。
-
公开(公告)号:CN113139116A
公开(公告)日:2021-07-20
申请号:CN202010060445.4
申请日:2020-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/28
Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
-
公开(公告)号:CN112613324A
公开(公告)日:2021-04-06
申请号:CN202011596697.5
申请日:2020-12-29
Applicant: 北京中科闻歌科技股份有限公司 , 深圳中科闻歌科技有限公司 , 北京中科闻歌智安科技有限公司
Abstract: 本申请涉及一种语义情绪识别方法、装置、设备及存储介质,所述方法包括:获取待识别文本,然后对待识别文本的全局语义信息进行提取,得到第一语义向量,再利用预训练的词向量模型确定待识别文本的词向量矩阵,之后根据词向量矩阵确定第二语义向量,根据词向量矩阵计算待识别文本中每个词的词向量与预设情绪词语的词向量的相似度,并将计算得到的所有相似度确定为第三语义向量,最后根据第一语义向量、第二语义向量和第三语义向量确定待识别文本所属的情绪类别,如此,便可以根据待识别文本的全局语义信息以及待识别文本的词向量矩阵确定待识别文本的情绪类别,考虑了待识别文本的词语义、词组语义以及句子语义信息,提高了情绪识别的准确性。
-
公开(公告)号:CN119005198A
公开(公告)日:2024-11-22
申请号:CN202411030867.1
申请日:2024-07-30
Applicant: 北京中科闻歌科技股份有限公司
Abstract: 本公开涉及一种基于大模型的海量负面信息检测方法、装置、设备及介质。其中,基于大模型的海量负面信息检测方法包括:获取待检测文本,由目标机器学习模型对待检测文本进行分析输出第一结果,在第一结果为待检测文本对应的情感分析结果为非负面时,获取目标指令语句,由目标大语言模型基于目标指令语句对待检测文本进行情感分析,输出第二结果,将第二结果确定为待检测文本的检测结果,目标大语言模型的第一参数量高于目标机器学习模型的第二参数量,由此,能够通过不同参数量的机器学习模型和大语言模型结合的方式对待检测文本进行情感分析,确定待检测文本的检测结果,实现了在对待检测文本快速进行情感分析的基础上提高了情感分析的准确性。
-
公开(公告)号:CN117591948B
公开(公告)日:2024-09-03
申请号:CN202410082714.5
申请日:2024-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/2411 , G06F40/166 , G06F18/214
Abstract: 本公开提供了一种评论生成模型训练方法和装置,涉及人工智能技术领域,具体涉及自然语言处理、深度学习、大模型等技术领域。具体实现方案为:获取文本样本集,文本样本集包括:第一文本样本,第一文本样本包括:展示文本以及与展示文本相关的情感立场文本;获取预先构建的评论生成网络,评论生成网络包括:编码器和解码器,编码器分别对展示文本和情感立场文本进行建模,得到评论全局特征向量;解码器用于对评论全局特征向量进行解码,得到评论结果信息;将从文本样本集中选取的第一文本样本输入评论生成网络,得到评论生成网络输出的评论结果信息;基于评论结果信息,得到训练完成的评论生成模型。
-
公开(公告)号:CN117972420A
公开(公告)日:2024-05-03
申请号:CN202410038893.2
申请日:2024-01-10
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F18/214 , G06F40/194 , G06F40/30
Abstract: 本申请涉及自然语言处理技术领域,尤其涉及一种基于预训练模型的通用立场检测方法、装置和存储介质。包括:获取待检测文本和待检测立场目标;将待检测文本和待检测立场目标输入通用立场检测模型,预测待检测文本对于待检测立场目标的立场类别概率分布;立场类别用于表示待检测文本对于待检测立场目标的立场;通用立场检测模型为根据至少一个文本、至少一个立场目标、每个文本的立场类别和每个文本的立场类型预先训练得到;立场类型用于表示文本的立场类别是否依赖于立场目标;将立场类别概率分布中最大概率数值对应的立场类别,确定为待检测文本对于待检测立场目标的立场类别。本申请实施例用于解决立场检测的检测效果较差的问题。
-
公开(公告)号:CN117113990A
公开(公告)日:2023-11-24
申请号:CN202311374453.6
申请日:2023-10-23
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/284 , G06F40/289 , G06F18/25
Abstract: 本发明涉及计算机技术应用领域,提供了一种面向大语言模型的词向量生成方法、电子设备及存储介质,包括:获取待分词的文本,作为目标文本;对目标文本进行分词处理,得到对应的分词集S;基于预设词向量基准表T,获取每个词在每个嵌入矩阵的特征向量;基于预设滑动窗口长度d,将S划分为多个语句片段,得到对应的语句片段集SP;对每个语句片段的特征向量进行融合,得到对应的特征向量;得到SP对应的特征向量F作为目标文本的特征向量。本发明在词向量生成过程中,将多个相邻的词组合视为一个词,能够使得分词的长度得到极大的压缩。此外,将不同词的特征向量通过张量积的方式组合成一个词的特征向量,可以极大的降低可训练参数量。
-
公开(公告)号:CN116361469A
公开(公告)日:2023-06-30
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116049414B
公开(公告)日:2023-06-06
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116049414A
公开(公告)日:2023-05-02
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
-
-
-
-
-
-
-
-