言论立场检测方法、装置和存储介质

    公开(公告)号:CN117828081A

    公开(公告)日:2024-04-05

    申请号:CN202410008601.0

    申请日:2024-01-03

    Abstract: 本申请涉及自然语言处理技术领域,尤其涉及一种言论立场检测方法、装置和存储介质。包括:获取待检测文本,并从待检测文本中抽取人物言论;获取第一语义矩阵向量和至少一个第二语义矩阵向量;第一语义矩阵向量为人物言论对应的语义表示向量,第二语义矩阵向量为至少一个立场标签对应的语义表示向量;立场标签为对于预设立场目标的立场表态;计算第一语义矩阵向量和每个第二语义矩阵向量之间的目标相似度;将目标相似度最大的第二语义矩阵向量对应的立场标签,确定为人物言论对于预设立场目标的立场。本申请实施例用于解决言论立场检测的检测效果较差的问题。

    基于BERT的媒体信息观点抽取方法、装置、设备和存储介质

    公开(公告)号:CN113139116B

    公开(公告)日:2024-03-01

    申请号:CN202010060445.4

    申请日:2020-01-19

    Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观

    一种文本原创识别方法、装置、电子设备及存储介质

    公开(公告)号:CN113553839A

    公开(公告)日:2021-10-26

    申请号:CN202010340711.9

    申请日:2020-04-26

    Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。

    文本热点提取方法及装置

    公开(公告)号:CN110134942A

    公开(公告)日:2019-08-16

    申请号:CN201910260924.8

    申请日:2019-04-01

    Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。

    一种信息处理方法、装置、设备及存储介质

    公开(公告)号:CN113536763B

    公开(公告)日:2024-11-05

    申请号:CN202110821206.0

    申请日:2021-07-20

    Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。

Patent Agency Ranking