一种基于知识引导的访谈交互数据处理方法及系统

    公开(公告)号:CN119357324A

    公开(公告)日:2025-01-24

    申请号:CN202411374260.5

    申请日:2024-09-29

    Applicant: 清华大学

    Abstract: 本发明提供一种基于知识引导的访谈交互数据处理方法及系统,该方法包括:在当前访谈交互过程的每轮对话中获得当前上下文内容,基于当前上下文内容及行动映射策略进行拼接处理,获得第一提示词;将第一提示词输入到语言模型,获得输出的下一轮对话中采用的至少一个目标行动策略;基于语言模型对获取的访谈指南信息和至少一个目标行动策略进行处理,获得语言模型输出的下一轮对话的访谈交互问题;在基于语言模型确定当前访谈交互过程完成的情况下,获得输出的与当前访谈交互过程对应的全部对话交互内容,并对全部对话交互内容进行分析,获得对话交互内容分析结果。本发明提供的方法,能够有效提高访谈交互数据处理的效率,从而大幅降低了人力成本。

    实体链接方法及装置
    82.
    发明授权

    公开(公告)号:CN112989808B

    公开(公告)日:2025-01-03

    申请号:CN202110326779.6

    申请日:2021-03-26

    Applicant: 清华大学

    Abstract: 本发明公开了一种实体链接方法及装置,所述实体链接方法包括:基于词典的方式进行实体发现,得到实体提及;基于词和实体的联合表示的方式进行实体链接,得到所述实体提及与知识库中的实体的链接关系;对所述链接关系进行减枝处理。本发明实施例在实体发现中使用基于词典的方式,在增加召回率的同时有效避免了中文分词对实体发现带来的影响,此外,本发明实施例基于词和实体联合表示的方式实现了实体链接,从而使得实体链接更加准确和丰富。通过本发明实施例的实体链接方法,实现辅助阅读,以及可用协助进行文本预处理。

    跨语言领域知识图谱构建方法及装置

    公开(公告)号:CN112487213B

    公开(公告)日:2024-12-03

    申请号:CN202011507796.1

    申请日:2020-12-18

    Applicant: 清华大学

    Abstract: 本发明提供一种跨语言领域知识图谱构建方法及装置,所述方法包括:获取目标领域对应的至少两种语言的种子词汇;利用所述至少两种语言的种子词汇,进行词汇扩展,直至扩展得到的词汇数量满足预设条件,获得所述至少两种语言的扩展词汇;对所述至少两种语言的扩展词汇执行交叉补充操作,获得所述目标领域的相关词汇;从现有数据库中提取所述相关词汇对应的原始数据;对所述原始数据进行知识图谱的构建,生成所述目标领域的知识图谱。本发明实现了适用于任何领域的跨语言领域知识图谱的构建方法,知识图谱的构建过程中无需依赖该特定领域的专家知识和行业调研才能实现,可有效提升知识图谱的构建效率,节省人力物力。

    基于事件的文档检索方法、装置、电子设备及存储介质

    公开(公告)号:CN118568195A

    公开(公告)日:2024-08-30

    申请号:CN202410450531.4

    申请日:2024-04-15

    Applicant: 清华大学

    Abstract: 本发明提供一种基于事件的文档检索方法、装置、电子设备及存储介质,其中的方法包括:获取用户对于待检索文档集的用户查询语句;将用户查询语句输入至预先训练的大语言模型,得到文档检索结果;其中,大语言模型通过根据文档表示和文档标识符构成的训练样本数据集进行训练优化得到,文档表示通过待检索文档集中的事件及事件关系表示得到,文档标识符通过将待检索文档集中的事件映射到事件层次结构中得到。该方法通过将文档内容之间的关联性纳入考虑范畴,利用事件及事件关系有效表示待检索文档,显著提升了大语言模型的文档检索性能;通过采用事件层次结构来构建具备明确语义结构的文档标识符,有效加强了文档标识符与文档内容之间的联系。

    知识图谱补全方法、装置、存储介质及设备

    公开(公告)号:CN117033645A

    公开(公告)日:2023-11-10

    申请号:CN202210494045.3

    申请日:2022-04-29

    Abstract: 本申请公开了一种知识图谱补全方法、装置、存储介质及设备,属于人工智能领域。该方法包括:获取第一样本集,第一样本集包括知识图谱中的三元组;对于第一样本集中的任意一个三元组,确定该三元组包括的关系对应的句式模板,基于该关系对应的句式模板将该三元组转化为语句,在语句中插入向量,得到第一类数据;获取该三元组包括的实体的介绍信息,基于该介绍信息对应的句式模板,将实体和介绍信息转化为第二类数据;基于第一样本集中多个三元组对应的第一类数据和第二类数据进行模型训练;基于得到的知识图谱补全模型为该知识图谱确定新的三元组,基于新的三元组在该知识图谱中新增实体和关系。本申请能够确保补全后的知识图谱的准确性。

    任务推荐方法、装置、分类系统及可读存储介质

    公开(公告)号:CN116822807A

    公开(公告)日:2023-09-29

    申请号:CN202210260914.6

    申请日:2022-03-16

    Abstract: 本申请公开了一种任务推荐方法、装置、分类系统及可读存储介质,属于知识图谱领域。本申请实施例的任务推荐方法包括:获取每位标注员在多个叶子概念中的每个叶子概念上的标注水平分数值;根据获取的标注水平分数值,计算每位标注员对应的混淆矩阵;该混淆矩阵中的每一项表示当对应标注员所标注的实例的真实概念为第一概念的情况下,该实例被标注为第二概念的概率;计算多个待标注实例中的每个待标注实例被标注为各个叶子概念的后验概率;根据每个待标注实例被标注为各个叶子概念的后验概率,从多个待标注实例中选取目标待标注实例,并将目标待标注实例推荐给目标标注员进行标注。根据本申请实施例,可以提升标注质量。

    一种开放信息抽取模型的训练方法和装置

    公开(公告)号:CN116226324A

    公开(公告)日:2023-06-06

    申请号:CN202211559799.9

    申请日:2022-12-06

    Applicant: 清华大学

    Abstract: 本发明提供一种开放信息抽取模型的训练方法和装置,包括:获取以自然语言语句为样本的目标数据集;生成所述目标数据集中每一条自然语言语句的转述句;对所述目标数据集中每一条自然语言语句的转述句进行结构化知识恢复,得到所述目标数据集中每一条自然语言语句对应的结构化知识;以所述目标数据集中所有自然语言语句对应的转述句和结构化知识构建第一数据集;利用所述第一数据集和所述目标数据集,采用降噪训练方式训练开放信息抽取模型。本发明基于转述生成和结构化知识恢复构建一个句法鲁棒的训练框架,使得开放信息抽取模型能够在句法分布充分且准确的数据集上进行训练,以适应真实世界场景。

    一种搜索信息的摘要自动生成方法及装置

    公开(公告)号:CN113268651B

    公开(公告)日:2023-06-06

    申请号:CN202110587256.7

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种搜索信息的摘要自动生成方法及装置,该方法包括:获取搜索信息对应的网页文本集,所述搜索信息是属于第一实体类别的信息;将所述网页文本集输入训练好的主题检测模型,输出所述网页文本集对应的主题文本簇集合,其中,所述训练好的主题检测模型是基于携带有主题标签的网页样本文本训练得到的;将所述主题文本簇集合输入训练好的摘要生成模型,得到所述搜索信息的摘要,其中,所述训练好的摘要生成模型是基于携带有摘要文本标签的样本主题文本簇训练得到的。本发明能够有效生成搜索信息的摘要。

    问答方法、装置、电子设备及存储介质

    公开(公告)号:CN115617954B

    公开(公告)日:2023-03-28

    申请号:CN202211440775.1

    申请日:2022-11-17

    Applicant: 清华大学

    Abstract: 本发明涉及人工智能技术领域,提供一种问答方法、装置、电子设备及存储介质,其中方法包括:将问题输入生成模型,获得问题对应的推理程序;基于目标知识库执行问题对应的推理程序得到问题的答案;生成模型是基于目标知识库之外的外部知识库和对应的第一数据集,以及目标知识库和对应的第二数据集,进行训练得到的,第一数据集包括第一问题样本和对应的第一推理程序标签,第二数据集包括第二问题样本和对应的答案样本;生成模型用于通过解码程序的树形结构所转换的序列中每个位置的词汇得到问题对应的推理程序;或者,通过解析程序骨架以及程序骨架所需的参数得到问题对应的推理程序。解决平行语料缺失的问题,提升了问答性能。

Patent Agency Ranking