-
公开(公告)号:CN116361469B
公开(公告)日:2024-07-19
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116049413B
公开(公告)日:2023-06-13
申请号:CN202310346366.3
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35 , G06F18/22 , G06F18/2415 , G06N3/0455 , G06N3/047
Abstract: 本发明提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
-
公开(公告)号:CN116361468B
公开(公告)日:2024-05-03
申请号:CN202310347374.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
-
公开(公告)号:CN116361468A
公开(公告)日:2023-06-30
申请号:CN202310347374.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种事件脉络生成方法、电子设备和存储介质,方法包括:首先对接收到的文本进行文本编码,然后进行文本聚类,并进行话题清洗与合并,得到所有话题,然后对每个话题,进行事件拆分,得到每个事件,并对相似事件进行合并,然后基于文本相似度进行事件脉络生成,能够更好地划分话题或事件,使得生成的话题或事件更加准确。此外,本发明不需要人工干预,可自动对多篇新闻进行数据预处理,生成话题库和事件库,并根据发布时间,输出事件的事件脉络。
-
公开(公告)号:CN116361469A
公开(公告)日:2023-06-30
申请号:CN202310347857.X
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35
Abstract: 本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
-
公开(公告)号:CN116049414B
公开(公告)日:2023-06-06
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116049414A
公开(公告)日:2023-05-02
申请号:CN202310346367.8
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
Abstract: 本发明提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
-
公开(公告)号:CN116049413A
公开(公告)日:2023-05-02
申请号:CN202310346366.3
申请日:2023-04-03
Applicant: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
IPC: G06F16/35 , G06F18/22 , G06F18/2415 , G06N3/0455 , G06N3/047
Abstract: 本发明提供了一种基于事件演化的用户观点和立场获取方法,首先对输入的多个文本例如新闻进行文本聚类,然后对聚类结果进行清洗和合并以得到事件,然后针对事件的演化过程,抽取事件对应的评论者、观点和立场,最后按照事件的演化时间顺序,输出对应的评论者、观点和立场,能够根据事件的演变,推断评论者的观点、立场的变化情况。
-
公开(公告)号:CN117932010A
公开(公告)日:2024-04-26
申请号:CN202311607433.9
申请日:2023-11-28
Applicant: 北京中科闻歌科技股份有限公司 , 航空工业信息中心 , 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/36
Abstract: 本发明提供了一种基于大语言模型的应答文本生成方法、电子设备及介质,涉及答文本生成领域,所述方法包括:获取用户输入的目标问题文本Q;获取Q中的第一目标字段QA和第二目标字段QB;确定Q对应的目标实体类型属性列表和/或目标实体类型关系以及指定提示词;将Q填入目标提示词对应的预设位置,生成Q对应的目标提示词;将所述目标提示词输入至预设的大语言模型;根据所述至少一个检索条件,从目标知识图谱中确定出每一检索条件对应的目标知识图谱分支;将Q和目标知识图谱分支输入至预设的大语言模型,以通过所述大语言模型输出Q对应的应答文本;本发明能够提高对知识图谱的处理效率以及得到的答案的准确性。
-
公开(公告)号:CN117828081A
公开(公告)日:2024-04-05
申请号:CN202410008601.0
申请日:2024-01-03
Applicant: 北京中科闻歌科技股份有限公司
IPC: G06F16/35 , G06F16/33 , G06F16/335 , G06F40/30 , G06F40/211
Abstract: 本申请涉及自然语言处理技术领域,尤其涉及一种言论立场检测方法、装置和存储介质。包括:获取待检测文本,并从待检测文本中抽取人物言论;获取第一语义矩阵向量和至少一个第二语义矩阵向量;第一语义矩阵向量为人物言论对应的语义表示向量,第二语义矩阵向量为至少一个立场标签对应的语义表示向量;立场标签为对于预设立场目标的立场表态;计算第一语义矩阵向量和每个第二语义矩阵向量之间的目标相似度;将目标相似度最大的第二语义矩阵向量对应的立场标签,确定为人物言论对于预设立场目标的立场。本申请实施例用于解决言论立场检测的检测效果较差的问题。
-
-
-
-
-
-
-
-
-