数据聚类方法及装置、电子设备、存储介质

    公开(公告)号:CN114841285A

    公开(公告)日:2022-08-02

    申请号:CN202210559705.1

    申请日:2022-05-19

    Abstract: 本申请的实施例揭示了一种数据聚类方法及装置、电子设备、存储介质,该方法包括:获取初始聚类中含有的多个聚类对象的特征数据,特征数据中包括多个维度的特征;在依次遍历初始聚类中含有的多个聚类对象的过程中,将遍历到的聚类对象作为簇中心,并根据多个聚类对象对应的多个维度的特征以及多个维度的特征匹配的权重,计算作为簇中心的聚类对象与其他聚类对象的第一目标距离;根据多个第一目标距离之间的关系,从初始聚类中含有的多个聚类对象中确定目标聚类对象。本申请实施例的技术方案能够提现出不同特征的贡献程度。

    词语类型标注方法、装置以及存储介质

    公开(公告)号:CN113221549A

    公开(公告)日:2021-08-06

    申请号:CN202010070167.0

    申请日:2020-01-21

    Abstract: 本公开提供了一种词语类型标注方法、装置以及存储介质,其中的方法包括:获取待分析文本,使用Ngram算法对待分析文本进行处理,获得与待分析文本相对应的Ngram分词;基于Ngram分词获得候选目标词汇,对候选目标词汇进行筛选和过滤处理,生成目标词汇;根据目标词汇生成词向量;使用词向量对机器学习模型进行训练,获得文本分类模型;其中,文本分类模型用于标注词汇的类别。本公开的方法、装置以及存储介质,能够减少对于词汇的标注量并可以减少对于词语遗漏的召回处理,降低了其对后续任务的影响;采用主动学习方法训练词语分类模型,能够快速构建标注词库,可以降低标注成本,提高用户的使用体验。

    知识检索方法、装置、电子设备和计算机可读存储介质

    公开(公告)号:CN115269815B

    公开(公告)日:2024-08-27

    申请号:CN202210946407.8

    申请日:2022-08-08

    Inventor: 刘珮 钱兵 赵龙刚

    Abstract: 本公开提供了一种知识检索方法、装置、电子设备和计算机可读存储介质,涉及自然语言处理技术领域。方法包括:接收用户的待检索内容和用户检索特征;根据预设的知识图谱库和待检索内容,计算待检索内容和知识图谱库内的多个候选知识之间的编辑距离相似度和语义相似度;根据用户检索特征生成预测融合系数;根据编辑距离相似度、语义相似度和预测融合系数,得到融合相似度;根据融合相似度对多个候选知识进行排序,得到检索结果。本公开计算融合相似度时同时考虑编辑距离相似度和语义相似度,并且还考虑用户检索特征,不同用户采用不同的融合相似度,检索更加贴合用户的使用习惯,进而提高了检索效率,提升了用户的使用体验。

    事件抽取模型训练方法、事件抽取方法以及相关设备

    公开(公告)号:CN115525776A

    公开(公告)日:2022-12-27

    申请号:CN202211351675.1

    申请日:2022-10-31

    Abstract: 本发明提供了事件抽取模型训练方法、事件抽取方法以及相关设备,事件抽取模型训练方法,包括:基于指导信息、专家案例以及通信字典生成知识图谱;对所述知识图谱进行编码获得知识图谱编码;将事件案例进行编码,获得文本编码;将所述知识图谱编码以及所述文本编码进行融合,获得融合编码;将所述融合编码输入第一抽取模型,获得所述事件案例的伪数据标签;基于所述事件案例以及所述伪数据标签训练第二抽取模型。本发明在样本数据小的情况下,提高事件抽取模型的泛化能力以及抽取准确性。

    小样本机器阅读理解方法和装置、计算机可读存储介质

    公开(公告)号:CN114065728A

    公开(公告)日:2022-02-18

    申请号:CN202010750691.2

    申请日:2020-07-30

    Abstract: 本公开涉及一种小样本机器阅读理解方法和装置、计算机可读存储介质。该小样本机器阅读理解方法包括:对相关领域的阅读理解任务,通过采样抽取任务分别训练模型参数,并将模型参数用于迭代更新元学习模型的模型参数;对新领域的阅读理解任务以所述元学习模型为起点进行训练,生成新领域阅读理解模型。本公开可以利用元学习的方法来学习已有相关领域的机器阅读理解任务,从而得到元学习模型来加速新领域的小样本量的机器阅读理解任务。

    知识库问答方法及装置、存储介质、电子设备

    公开(公告)号:CN115357701B

    公开(公告)日:2025-02-18

    申请号:CN202211007481.X

    申请日:2022-08-22

    Abstract: 本公开属于自然语言处理技术领域,涉及一种知识库问答方法及装置、存储介质、电子设备。该方法包括:获取问题语句和数据库,并利用改进命名实体识别模型识别问题语句中的第一实体类别和第一命名实体;利用匹配模型识别问题语句中的第二实体类别和第二命名实体,并对第一实体类别和第二实体类别进行融合得到目标实体类别;对第一命名实体和第二命名实体进行融合得到目标命名实体,并根据目标实体类别和目标命名实体在数据库中搜索问题语句的答案语句。本公开通过一个模型实现了意图分类和命名实体识别,简化了处理流程,提升了改进命名实体识别模型的准确率,提升了意图分类的准确率,优化了分类效果,提升了答案搜索准确率,减少了答案筛选时间。

    意图事件提取方法及装置、电子设备、存储介质

    公开(公告)号:CN116167382A

    公开(公告)日:2023-05-26

    申请号:CN202310014600.2

    申请日:2023-01-05

    Inventor: 刘珮 钱兵 赵龙刚

    Abstract: 本公开提供了一种意图事件提取方法及装置、电子设备、存储介质,涉及自然语言处理技术领域。该意图事件提取方法包括:获取待处理的当前语句数据;提取所述当前语句数据的至少两种语义特征数据;基于预设依赖关系将所述至少两种语义特征数据进行关联,得到多形式异构关系图;将所述多形式异构关系图输入到预训练的意图事件提取模型中,得到所述当前语句数据对应的语句意图事件。本公开实施例的技术方案通过构建的多形式异构关系图,有效挖掘语句数据中所包含的语义信息,准确表达句内事件与句间事件之间的相关性,从而有效提升提取的语句意图事件的准确性。

    知识检索方法、装置、电子设备和计算机可读存储介质

    公开(公告)号:CN115269815A

    公开(公告)日:2022-11-01

    申请号:CN202210946407.8

    申请日:2022-08-08

    Inventor: 刘珮 钱兵 赵龙刚

    Abstract: 本公开提供了一种知识检索方法、装置、电子设备和计算机可读存储介质,涉及自然语言处理技术领域。方法包括:接收用户的待检索内容和用户检索特征;根据预设的知识图谱库和待检索内容,计算待检索内容和知识图谱库内的多个候选知识之间的编辑距离相似度和语义相似度;根据用户检索特征生成预测融合系数;根据编辑距离相似度、语义相似度和预测融合系数,得到融合相似度;根据融合相似度对多个候选知识进行排序,得到检索结果。本公开计算融合相似度时同时考虑编辑距离相似度和语义相似度,并且还考虑用户检索特征,不同用户采用不同的融合相似度,检索更加贴合用户的使用习惯,进而提高了检索效率,提升了用户的使用体验。

Patent Agency Ranking