-
公开(公告)号:CN107330022B
公开(公告)日:2023-03-24
申请号:CN201710475018.0
申请日:2017-06-21
Applicant: 腾讯科技(深圳)有限公司
Abstract: 一种获取热点话题的方法及装置,所述方法包括:获取待处理的语料集合,所述语料集合包括多个语料,每个语料包括多个词语,获取所述语料集合中各词语的热度信息;根据所述语料集合中各词语的热度信息,从所述语料集合中提取热词集合;基于信息熵从所述热词集合中提取包含多个候选热词组的候选热词组集合;基于候选热词组的热度信息和候选热词组的权重值,从所述候选热词组集合中提取目标热词组集合,将所述目标热词组集合作为热点话题集合。通过采用本方案,能够自动从海量短文本中获取热点话题,以及提高从海量文本中获取热点话题的效率与质量。
-
公开(公告)号:CN111339421B
公开(公告)日:2023-02-28
申请号:CN202010130414.1
申请日:2020-02-28
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/9535 , G06F16/9538 , G06F16/951 , G06F16/335 , G06F16/338
Abstract: 本申请关于一种基于云技术的信息搜索的方法、装置、设备及存储介质,涉及信息搜索技术领域。所述方法包括:接收目标搜索请求,将目标搜索请求转发至对应的目标搜索引擎中,根据目标索引,指令目标搜索引擎对输入信息进行搜索,输出目标搜索引擎得到的搜索结果,其中,目标索引时按照目标上下文信息建立的索引,搜索结果是目标数据源中对应的目标索引的节选内容,目标数据源是非结构化的云端数据源。由于本申请中的目标数据源是与云端同步的数据源,当云端数据库中的数据源发生变化时,目标搜索引擎能够同步该数据源,实现了云端数据源发生变化时,目标搜索引擎的自动化部署,并依靠目标索引,提高了检索的效率和结果的匹配度。
-
公开(公告)号:CN110046236B
公开(公告)日:2022-12-20
申请号:CN201910212721.1
申请日:2019-03-20
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/332 , G06F16/31
Abstract: 本发明提供一种非结构化数据的检索方法及装置,所述非结构化数据的检索方法包括:获取非结构化数据集;根据所述非结构化数据集中每个非结构数据的上下文信息构建所述非结构化数据集对应的层级结构;提取与每个层级对应的非结构化数据以生成节点,从而构建与所述非结构化数据集对应的树形数据集;根据用户提问信息,搜索所述树形数据集;基于搜索结果,确定候选项集,所述候选项集包括至少一个节点。采用本发明的技术方案,通过返回不同层次的节点来实现对答案范围的灵活控制,且能够很好地保留上下文信息,提高检索的精度,同时能够有效解决多层级结构、数据格式多样的非结构化数据的阅读理解问题。
-
公开(公告)号:CN107025218B
公开(公告)日:2021-03-02
申请号:CN201710225086.1
申请日:2017-04-07
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/289 , G06F40/30 , G06F16/31
Abstract: 本发明实施例公开了一种文本去重方法和装置;本发明实施例采用获取文本集合,该文本集合包括多个待去重文本,然后,针对每个待去重文本,从待去重文本中截取相应的子文本串,在该文本集合中确定具有相同子文本串的待去重文本,得到每种子文本串对应的子文本集合,分别对每种子文本串对应的子文本集合进行文本去重处理,得到每种子文本串对应的去重后文本集合,根据每种子文本串对应的去重后文本集合,获取该文本集合去重后的结果文本集合;该方案可以极大地降低去重过程中需要两两比较的文本数量,降低文本去重的时间复杂度,从而提高文本去重效率。
-
公开(公告)号:CN110046236A
公开(公告)日:2019-07-23
申请号:CN201910212721.1
申请日:2019-03-20
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/332 , G06F16/31
Abstract: 本发明提供一种非结构化数据的检索方法及装置,所述非结构化数据的检索方法包括:获取非结构化数据集;根据所述非结构化数据集中每个非结构数据的上下文信息构建所述非结构化数据集对应的层级结构;提取与每个层级对应的非结构化数据以生成节点,从而构建与所述非结构化数据集对应的树形数据集;根据用户提问信息,搜索所述树形数据集;基于搜索结果,确定候选项集,所述候选项集包括至少一个节点。采用本发明的技术方案,通过返回不同层次的节点来实现对答案范围的灵活控制,且能够很好地保留上下文信息,提高检索的精度,同时能够有效解决多层级结构、数据格式多样的非结构化数据的阅读理解问题。
-
公开(公告)号:CN107025218A
公开(公告)日:2017-08-08
申请号:CN201710225086.1
申请日:2017-04-07
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了一种文本去重方法和装置;本发明实施例采用获取文本集合,该文本集合包括多个待去重文本,然后,针对每个待去重文本,从待去重文本中截取相应的子文本串,在该文本集合中确定具有相同子文本串的待去重文本,得到每种子文本串对应的子文本集合,分别对每种子文本串对应的子文本集合进行文本去重处理,得到每种子文本串对应的去重后文本集合,根据每种子文本串对应的去重后文本集合,获取该文本集合去重后的结果文本集合;该方案可以极大地降低去重过程中需要两两比较的文本数量,降低文本去重的时间复杂度,从而提高文本去重效率。
-
公开(公告)号:CN116977012A
公开(公告)日:2023-10-31
申请号:CN202310122303.X
申请日:2023-02-01
Applicant: 腾讯科技(深圳)有限公司
IPC: G06Q30/0601 , G06F16/35 , G06V30/41 , G06F40/295 , G06N3/02
Abstract: 本申请实施例公开了一种数据生成方法、装置、产品、设备及存储介质。其中方法包括:获取待推荐的目标物品关联的目标文本,并获取目标文本包含的N个关键文本;N为正整数;将N个关键文本分别与目标文本进行结合,生成针对训练好的文本生成网络的N个生成任务;一个关键文本和所述目标文本用于生成一个生成任务;调用文本生成网络,分别生成目标物品在N个生成任务中每个生成任务下的推荐文本;目标物品在任一生成任务下的推荐文本,包含任一生成任务中的关键文本或不包含任一生成任务中的关键文本。采用本申请实施例,可基于N个关键文本生成多个反映目标物品不同内容的推荐文本,从而提升对目标物品生成的推荐文本的准确性和丰富性。
-
公开(公告)号:CN117216241A
公开(公告)日:2023-12-12
申请号:CN202310162229.4
申请日:2023-02-15
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请公开了一种文本信息处理方法、装置、电子设备及存储介质,应用于人工智能技术领域,该方法包括:获取多媒体内容的至少一种评论信息子集;对至少一种评论信息子集进行代表评论提取处理,得到每一评论信息子集对应的至少一个代表评论信息;将至少一个代表评论信息和预设长度限制信息进行拼接处理得到的长度限制评论信息,输入评论摘要生成模型,在学习预设长度限制信息的语义信息的基础上,提取摘要信息,得到所述每一评论信息子集对应的评论摘要信息;评论摘要生成模型为基于对应多种长度限制信息的多个样本长度限制评论信息对预设深度学习模型进行摘要生成训练得到的。利用本申请提供的技术方案可以提升摘要生成模型适用场景的全面性。
-
公开(公告)号:CN108427771B
公开(公告)日:2020-11-10
申请号:CN201810312755.3
申请日:2018-04-09
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种摘要文本生成方法、装置和计算机设备,方法包括:获取原始文本的词序列;通过机器学习模型的第一通道和第二通道,分别对词序列各自进行编码和解码,且在解码时参考机器学习模型前一时刻所输出摘要词的词向量,从而得到当前时刻的第一隐层状态向量和第二隐层状态向量,进而根据当前时刻的第一隐层状态向量和第二隐层状态向量确定机器学习模型当前时刻输出的摘要词;根据机器学习模型所输出的各摘要词生成摘要文本。本申请提供的方案可以实现提升生成的摘要文本的可读性。
-
公开(公告)号:CN110781274A
公开(公告)日:2020-02-11
申请号:CN201910880193.7
申请日:2019-09-16
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/33 , G06F16/332 , G06F16/35
Abstract: 本申请实施例提供了一种问答对生成的方法,能够提高问答对的问题和答案之间的匹配度。其中,该方法在获取待解析文本后,根据待解析文本生成候选问答对,其中,待解析文本包括n层信息,n大于等于2,候选问答对是基于n层信息中的相邻两层信息生成的,候选问答对的问题是基于相邻两层信息中的上层信息生成的,候选问答对的答案是基于相邻两层信息中的下层信息生成的,下层信息从属于上层信息。然后通过目标分类模型获取候选问答对所对应的相关性分值,最后根据候选问答对所对应的相关性分值从候选问答对中确定目标问答对。
-
-
-
-
-
-
-
-
-