-
公开(公告)号:CN116361469B
公开(公告)日:2024-07-19
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN118012994A
公开(公告)日:2024-05-10
申请号:CN202211406508.2
申请日:2022-11-10
Applicant: 北京大学 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/332 , G06F16/36 , G06F16/2458 , G06F18/22 , G06N5/02 , G06N3/045
Abstract: 本发明公开了一种基于理论知识库的搜索和问答系统,包括预计算模块、分流模块、模搜索模块、知识点提取模块、知识点问答类问询的意图识别模块、理论盘点类问询的知识点及场景提取模块、回答生成模块;输入与预计算模块用于计算理论知识库中每一个知识点的向量并存储;分流模块用于将收到的问询分成四类:模糊搜索类问询、知识点问答类问询、理论盘点类问询;所搜索模块用于根据所述问询构建对应的问询向量,在理论句子向量库中搜索与所述问询向量匹配的理论句子返回输出;知识点提取模块用于从所述问询中抽取关键词,以及将所述问询中的每一关键词映射到所述理论知识库中匹配的知识点;回答生成模块用于基于匹配的知识点和场景生成回复信息。
-
公开(公告)号:CN116049413B
公开(公告)日:2023-06-13
申请号:CN202310346366.3
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35 , G06F18/22 , G06F18/2415 , G06N3/0455 , G06N3/047
Abstract: 本发明提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
-
公开(公告)号:CN119783663A
公开(公告)日:2025-04-08
申请号:CN202411861891.X
申请日:2024-12-17
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F40/258 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种基于大语言模型的事件名生成方法、设备及介质,涉及事件名生成技术领域,所述方法包括:获取目标文章集合A;将A中的每一篇目标文章输入至预设的预训练语言模型,以得到标题摘要组列表B;获取B中每一标题摘要组对应的token长度,以得到B对应的token长度列表NB;确定B对应的分批处理的初始批次数量NUM;若NUM>1,则将B划分为若干批次,以得到B对应的批次列表C;根据C和预设的大语言模型,得到目标事件对应的事件名称;本发明中的方法,在生成事件的名称的过程中,结合目标事件的多篇目标文章,所参考的信息较多,从而使得生成的目标事件的名称更加准确。
-
公开(公告)号:CN118940826A
公开(公告)日:2024-11-12
申请号:CN202411434591.3
申请日:2024-10-15
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06N5/02
Abstract: 本发明涉及自然语言处理领域,提供一种事件知识图谱构建方法、装置和电子设备,包括:基于源文本数据集构建事件图谱;基于所述事件图谱和开源知识图谱之间的共同实体,对所述事件图谱和所述开源知识图谱进行融合,得到融合了事件图谱和开源知识图谱的事件知识图谱;获取所述事件知识图谱中的节点和有向边的特征向量,得到进行了知识表示的事件知识图谱,作为目标事件知识图谱。本发明通过将事件图谱与知识图谱深度融合得到具有丰富知识表示的事件知识图谱。
-
公开(公告)号:CN116361470B
公开(公告)日:2024-05-14
申请号:CN202310347961.9
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN117041619A
公开(公告)日:2023-11-10
申请号:CN202211654313.X
申请日:2022-12-22
Applicant: 新华融合媒体科技发展(北京)有限公司
IPC: H04N21/234 , G06T11/40 , H04N21/2343 , H04N21/44 , H04N21/4402 , H04N5/272
Abstract: 本申请公开了一种融媒体视频目标智能去除及背景填充的方法与系统。该方法包括:获取目标融媒体视频;确定目标融媒体视频中包括目标对象的目标视频帧;去除目标视频帧中的目标对象,得到目标区域,目标区域至少包括目标视频帧中目标对象原本所在的区域;对目标融媒体视频包括的目标视频帧中的目标区域进行背景填充,得到第一融媒体视频。这样,降低了人力成本,且保证了视频内容的连贯性,也避免了打码造成的观看体验不佳。
-
公开(公告)号:CN116361469A
公开(公告)日:2023-06-30
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116049414B
公开(公告)日:2023-06-06
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116049414A
公开(公告)日:2023-05-02
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
-
-
-
-
-
-
-
-