-
公开(公告)号:CN116361469B
公开(公告)日:2024-07-19
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN117932010A
公开(公告)日:2024-04-26
申请号:CN202311607433.9
申请日:2023-11-28
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明提供了一种基于大语言模型的应答文本生成方法、电子设备及介质,涉及答文本生成领域,所述方法包括:获取用户输入的目标问题文本Q;获取Q中的第一目标字段QA和第二目标字段QB;确定Q对应的目标实体类型属性列表和/或目标实体类型关系以及指定提示词;将Q填入目标提示词对应的预设位置,生成Q对应的目标提示词;将所述目标提示词输入至预设的大语言模型;根据所述至少一个检索条件,从目标知识图谱中确定出每一检索条件对应的目标知识图谱分支;将Q和目标知识图谱分支输入至预设的大语言模型,以通过所述大语言模型输出Q对应的应答文本;本发明能够提高对知识图谱的处理效率以及得到的答案的准确性。
-
公开(公告)号:CN117828081A
公开(公告)日:2024-04-05
申请号:CN202410008601.0
申请日:2024-01-03
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F16/33 , G06F16/335 , G06F40/30 , G06F40/211
Abstract: 本申请涉及自然语言处理技术领域,尤其涉及一种言论立场检测方法、装置和存储介质。包括:获取待检测文本,并从待检测文本中抽取人物言论;获取第一语义矩阵向量和至少一个第二语义矩阵向量;第一语义矩阵向量为人物言论对应的语义表示向量,第二语义矩阵向量为至少一个立场标签对应的语义表示向量;立场标签为对于预设立场目标的立场表态;计算第一语义矩阵向量和每个第二语义矩阵向量之间的目标相似度;将目标相似度最大的第二语义矩阵向量对应的立场标签,确定为人物言论对于预设立场目标的立场。本申请实施例用于解决言论立场检测的检测效果较差的问题。
-
公开(公告)号:CN113139116B
公开(公告)日:2024-03-01
申请号:CN202010060445.4
申请日:2020-01-19
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/9535 , G06F16/28
Abstract: 本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观
-
公开(公告)号:CN116049413B
公开(公告)日:2023-06-13
申请号:CN202310346366.3
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35 , G06F18/22 , G06F18/2415 , G06N3/0455 , G06N3/047
Abstract: 本发明提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
-
公开(公告)号:CN115952261A
公开(公告)日:2023-04-11
申请号:CN202211583589.3
申请日:2022-12-09
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/30 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种基于多任务学习的生成式阅读理解方法,所述方法包括如下步骤:获取目标问题和目标段落,获取目标问题和目标段落的对应的特征向量,将特征向量输入到目标阅读理解模型,获取目标答案;从而提高目标答案的准确性和可靠性。
-
公开(公告)号:CN115840804A
公开(公告)日:2023-03-24
申请号:CN202211602874.5
申请日:2022-12-13
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/35 , G06F16/33 , G06F40/295
Abstract: 本发明提供了一种面向航空装备知识图谱的问答系统,包括:处理器和存储有一段计算机程序的存储器,当所述处理器执行一段计算机程序时,实现如下步骤:对目标问句进行处理,获取目标问句对应的目标问句向量、目标头实体和目标问答类型,对目标头实体和航空装备知识图谱嵌入表示进行实体链接,获取对应的目标头实体表示向量,将目标问句向量、目标头实体表示向量和目标问答类型输入到判别模型,获取候选答案列表和候选答案得分列表,确定目标答案向量集,本发明融合了得分阈值的筛选,使得问答的效果更为精准。
-
公开(公告)号:CN113553839A
公开(公告)日:2021-10-26
申请号:CN202010340711.9
申请日:2020-04-26
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/279 , G06F40/194
Abstract: 本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。
-
公开(公告)号:CN110134942A
公开(公告)日:2019-08-16
申请号:CN201910260924.8
申请日:2019-04-01
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F17/27 , G06F16/951 , G06F16/9535 , G06F16/35
Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。
-
公开(公告)号:CN113536763B
公开(公告)日:2024-11-05
申请号:CN202110821206.0
申请日:2021-07-20
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F40/194 , G06F16/335
Abstract: 本公开涉及一种信息处理方法、装置、设备及存储介质。其中,信息处理方法包括:获取待处理文本;确定待处理文本与已存储文本之间的文本相似度;基于待处理文本的发布时间和已存储文本的发布时间,对文本相似度进行修正,得到修正后的文本相似度;在修正后的文本相似度大于或等于预设相似度阈值的情况下,将已存储文本作为待处理文本的相似文本。根据本公开实施例,可以提高重复信息的查找精度和效率且节约设备资源,以进一步提高重复信息的处理效果和效率,降低文本内容的重复性,进而使得用户快速且准确的从网络平台中查找感兴趣信息的需求,提高用户查看信息的体验且节约设备资源。
-
-
-
-
-
-
-
-
-