发明公开
- 专利标题: 一种基于预训练模型的话题生成方法
-
申请号: CN202310347857.X申请日: 2023-04-03
-
公开(公告)号: CN116361469A公开(公告)日: 2023-06-30
- 发明人: 王磊 , 郭鸿飞 , 王俊艳 , 徐才 , 王柯淇 , 蔡昌艳 , 王宇琪 , 曹家 , 罗引
- 申请人: 北京中科闻歌科技股份有限公司 , 新华融合媒体科技发展(北京)有限公司
- 申请人地址: 北京市海淀区北四环西路9号楼7层717室;
- 专利权人: 北京中科闻歌科技股份有限公司,新华融合媒体科技发展(北京)有限公司
- 当前专利权人: 北京中科闻歌科技股份有限公司,新华融合媒体科技发展(北京)有限公司
- 当前专利权人地址: 北京市海淀区北四环西路9号楼7层717室;
- 代理机构: 北京锺维联合知识产权代理有限公司
- 代理商 黄利萍
- 主分类号: G06F16/35
- IPC分类号: G06F16/35
摘要:
本发明提供了一种基于预训练模型的话题生成方法,包括:获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;利用设定聚类算法对待聚类文本进行聚类,得到多个话题;对多个话题进行清洗和合并处理,得到处理后的n个话题;对于n个话题中的任一话题,基于预训练生成模型生成对应的话题描述;输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述,使得得到的话题描述通顺,可读性强,并且由于对话题进行了清洗和合并,使得聚类结果更加准确。
公开/授权文献
- CN116361469B 一种基于预训练模型的话题生成方法 公开/授权日:2024-07-19