-
公开(公告)号:CN110968697B
公开(公告)日:2023-06-16
申请号:CN201911328004.1
申请日:2019-12-20
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/35
Abstract: 本申请实施例公开了一种文本分类方法、装置、设备及可读存储介质,对待分类文本进行字、词、句三个层级的编码,得到待分类文本的字级向量表达、词级向量表达和句级向量表达;将由字级向量表达、词级向量表达和句级向量表达构成的纯四元数空间向量表达在四元数空间进行处理,得到待分类文本在四元数空间的特征;至少根据待分类文本在四元数空间的特征确定待分类文本的类别。本申请实施例提供的文本分类方案,将待分类文本表示为一个纯四元数空间向量在四元数空间进行特征提取,所提取的特征保持了待分类文本的字、词、句的相关性和整体性,从而提高短文本的分类准确度。
-
公开(公告)号:CN115952804A
公开(公告)日:2023-04-11
申请号:CN202211714486.6
申请日:2022-12-29
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/30 , G06F16/35 , G06F40/289
Abstract: 本发明提供一种事件共指消解方法、装置、电子设备及存储介质,其中方法包括:获取事件文本;基于所述事件文本对应的事件提示文本,对所述事件文本进行语义编码,得到所述事件文本的事件语义特征,所述事件提示文本用于提示所述事件文本中待关注的参数类型;提取所述事件文本之间的比较提示文本的比较语义特征,所述比较提示文本用于提示所述事件文本之间待比较的参数类型;基于所述事件语义特征和所述比较语义特征,进行事件共指消解。本发明提供的方法、装置、电子设备及存储介质,由此,可以使得后续进行事件共指消解时,模型特别关注事件文本之间待比较的参数类型,能够更好地挖掘文本语义信息,提高事件共指消解的准确性和可靠性。
-
公开(公告)号:CN115630137A
公开(公告)日:2023-01-20
申请号:CN202211242383.4
申请日:2022-10-11
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/33 , G06F40/289 , G06F40/30
Abstract: 本发明公开了一种基于长文本的查询检索方法、装置以及电子设备,提出了与词语信息相关的语义检索及具有鲁棒性的重排序策略,以此兼顾检索效果及效率。具体是按不同粒度对长文本进行分割,且在分割过程中结合查询需求及分割文本粒度进行与词语信息相关的多阶段检索,然后利用预先由自动伪标签机制建模的重排序模型,将多阶段检索最终输出的若干候选与查询需求进行语义相关性预测,得到精排序的检索结果,从而获得对应查询的目标检索文本。本发明能够准确检索出用户所需信息,并减少变化查询条件的次数,而对检索结果的重排过程依靠具有鲁棒性的预建模型,有效提高了针对长文本的检索泛化能力及检索效果,从而能够大幅改善对于搜索引擎的使用体验。
-
公开(公告)号:CN115630136A
公开(公告)日:2023-01-20
申请号:CN202211242377.9
申请日:2022-10-11
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/33 , G06F16/332 , G06F40/35
Abstract: 本发明公开了一种用于长文本的语义检索及问答处理方法、装置及电子设备,提出结合文本分割、语义检索、重排序、问答推理多个环节的长文本检索综合处理方案,各个环节适配小样本场景,将对比学习的训练思想应用到语义检索与重排序任务中,获得符合期待的语义检索效果,且进一步将微调策略与分类机制相融合完成问答推理任务,从而可基于在先的语义检索及重排序给出的关键文本进行推理解答并输出该佐证线索。本发明无需依赖大批量标注数据,通过前述多环节能够提升搜索引擎对于篇章级长文本的检索性能,并在小样本条件下充分发挥预训练模型的泛化推理效果,进而有效解决了目前长文本检索的语义理解及推理能力不足的问题。
-
公开(公告)号:CN113282742B
公开(公告)日:2022-08-12
申请号:CN202110484890.8
申请日:2021-04-30
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种摘要获取方法以及电子设备、存储装置,其中,摘要获取方法包括:获取文档组;其中,文档组包含若干文档,每一文档包含若干候选分句;分别提取若干文档中若干候选分句的句子语义表示;其中,句子语义表示包含候选分句在文档组内的第一位置信息;基于句子语义表示,选择至少一个候选分句作为目标分句;利用目标分句,得到文档组的目标摘要。上述方案,能够降低摘要冗余度,并提高摘要可读性。
-
公开(公告)号:CN114357107A
公开(公告)日:2022-04-15
申请号:CN202111389113.1
申请日:2021-11-22
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/33 , G06F16/332 , G06K9/62
Abstract: 本申请公开了一种问题回答方法及相关装置、电子设备和存储介质,其中,问题回答方法包括:获取待回答问题文本以及待回答问题涉及的常识文本;基于答案预测模型对待回答问题文本和常识文本进行答案预测,得到待回答问题文本的答案文本;其中,答案预测模型是利用若干组样本文本数据训练得到的,且基于样本文本数据训练答案预测模型时,在样本文本数据中选择至少一个样本字符进行屏蔽。上述方案,能够准确且稳定地实现问题回答。
-
公开(公告)号:CN114328910A
公开(公告)日:2022-04-12
申请号:CN202111396748.4
申请日:2021-11-23
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F16/35 , G06F16/34 , G06F40/166 , G06N3/08
Abstract: 本申请提供了一种文本聚类方法以及相关装置,该文本聚类方法包括:获得多个文档;响应于多个文档中存在字符长度超过阈值的待处理文档,对待处理文档进行降维处理以使得待处理文档的字符长度小于或等于阈值;对字符长度小于或等于阈值的所有文档进行聚类以获得至少一个聚类簇;针对每个聚类簇生成对应的摘要。通过这种设计方式,对PGNet模型进行了改进,使其能够同时处理多篇文档,得到多篇章文档的共同摘要,基于PGNet模型的多篇章的文本短描述生成方法,解决了传统方案中只能实现单个文档的摘要生成的缺陷。
-
公开(公告)号:CN112906391A
公开(公告)日:2021-06-04
申请号:CN202110282621.3
申请日:2021-03-16
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/289 , G06F40/30
Abstract: 本发明提供一种元事件抽取方法、装置、电子设备和存储介质,其中方法包括:确定待处理文本包含的触发词及其对应的各参数词;抽取触发词对应的每两个参数词在待处理文本中的关系;基于触发词对应的各参数词,以及每两个参数词之间的关系类型,构建触发词的参数关系图;遍历触发词的参数关系图,得到触发词的各元事件。本发明提供的方法、装置、电子设备和存储介质,完成了同一触发词下多元事件的事件拆分,从而实现细粒度的元事件抽取,有助于提高元事件抽取的可靠性和准确性。
-
公开(公告)号:CN112613304A
公开(公告)日:2021-04-06
申请号:CN202011496898.8
申请日:2020-12-17
Applicant: 合肥讯飞数码科技有限公司
IPC: G06F40/279 , G06F40/151
Abstract: 本申请公开了一种问题回答方法以及电子设备、存储装置,其中,问题回答方法包括:获取待回答的第一问题文本;识别第一问题文本中的第一实体和第一实体的第一类别;利用第一类别,在预设问答库中搜索得到与第一问题文本匹配的第二问题文本;其中,预设问答库包括至少一对第二问题文本和第二问题文本的回答文本;将第二问题文本的回答文本,作为第一问题文本的回答文本。上述方案,能够提高问题回答的准确性。
-
-
-
-
-
-
-
-