一种确定热点事件的方法和相关装置

    公开(公告)号:CN112559745A

    公开(公告)日:2021-03-26

    申请号:CN202011442564.2

    申请日:2020-12-11

    Inventor: 戴瑾 胡加学

    Abstract: 本申请公开了一种确定热点事件的方法和相关装置,该方法包括:对目标领域的多个待挖掘文本进行聚类处理,将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本;计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度;该知识图谱是基于目标领域的历史文本预先构建的,其中一条路径表示一个包括多个扩展语句的事件;判断相似度大于等于预设相似度时,确定该相似度对应的事件为热点事件。通过聚类对目标领域的多个待挖掘文本,计算每个类簇中心对应的待挖掘文本,与基于目标领域的历史文本预先构建的知识图谱中事件的相似度,将较大相似度对应的事件作为热点事件,能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件。

    事件抽取方法、装置、设备及存储介质

    公开(公告)号:CN114254089A

    公开(公告)日:2022-03-29

    申请号:CN202111479664.7

    申请日:2021-12-06

    Inventor: 戴瑾 宋时德

    Abstract: 本申请实施例公开了一种事件抽取方法、装置、设备及存储介质,获取目标事件类型关联的描述性问句;在源数据中查找上述描述性问句的答案;将答案与描述性问句对应的事件角色相关联。可见,本申请方案,提供了一种新的事件抽取方法,该方法不再将事件角色作为机器学习的目标,当有新的事件角色时,只需要增加事件角色与描述性问句的对应关系即可,而该对应关系的增加操作简单、即时,不会对本申请提供的事件抽取方法产生影响,从而避免事件角色作为类别对事件抽取的影响,提高了事件抽取方法对于用户使用的便利性。

    一种关键短语确定方法、装置、设备及存储介质

    公开(公告)号:CN110008474A

    公开(公告)日:2019-07-12

    申请号:CN201910270447.3

    申请日:2019-04-04

    Inventor: 戴瑾

    Abstract: 本申请提出一种关键短语确定方法、装置、设备及存储介质,其中,该关键短语确定方法包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语,并且可以提高选出的关键短语的准确度。

    特征编码方法、装置、电子设备及可读存储介质

    公开(公告)号:CN111160043B

    公开(公告)日:2024-04-30

    申请号:CN201911419048.5

    申请日:2019-12-31

    Abstract: 本发明实施例提供一种特征编码方法、装置、电子设备及可读存储介质,获取待分析语句;将所述待分析语句输入至预先训练好的特征编码模型中,获得所述特征编码模型输出的特征编码结果;所述特征编码模型为注意力模块和训练好的生成对抗网络模型中的编码模块共同训练所得到。本发明实施例中的特征编码方法利用注意力模块和训练好的生成对抗网络模型中的编码模块共同训练特征编码模型,提高了特征编码模型的鲁棒性。

    一种关键短语确定方法、装置、设备及存储介质

    公开(公告)号:CN110008474B

    公开(公告)日:2023-06-02

    申请号:CN201910270447.3

    申请日:2019-04-04

    Inventor: 戴瑾

    Abstract: 本申请提出一种关键短语确定方法、装置、设备及存储介质,其中,该关键短语确定方法包括:通过将目标文本与预设的关键短语集合中的关键短语进行匹配,从所述目标文本中选出候选关键短语,以及从所述预设的关键短语集合中选出匹配关键短语;分别获取每个候选关键短语的隐语义向量以及每个匹配关键短语的语义向量;根据每个候选关键短语的隐语义向量与每个匹配关键短语的语义向量之间的相似度,从所述候选关键短语和/或所述匹配关键短语中确定出所述目标文本的关键短语。上述处理过程不需要人工干预,可以自动化地确定目标文本的关键短语,并且可以提高选出的关键短语的准确度。

    知识库扩充方法、装置、电子设备和存储介质

    公开(公告)号:CN111125379B

    公开(公告)日:2022-12-06

    申请号:CN201911368840.2

    申请日:2019-12-26

    Inventor: 夏有君 李莉 戴瑾

    Abstract: 本发明实施例提供一种知识库扩充方法、装置、电子设备和存储介质,其中方法包括:确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。本发明实施例提供的方法、装置、电子设备和存储介质,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。

    一种文本处理方法、装置、存储介质及设备

    公开(公告)号:CN114676239A

    公开(公告)日:2022-06-28

    申请号:CN202210300744.X

    申请日:2022-03-25

    Inventor: 戴瑾

    Abstract: 本申请公开了一种文本处理方法、装置、存储介质及设备,该方法包括:首先获取待回答的目标问题文本;然后将目标问题文本输入至预先构建的智能问答模型,预测得到目标问题文本对应的答案文本;其中,智能问答模型是根据利用无监督文档自动挖掘出的问答对、以及扩展问题训练得到的;扩展问题是根据无监督语料和问答对中的问题挖掘得到的。可见,由于本申请是利用预先构建的智能问答模型对目标问题文本进行智能回答,有效提高了智能问答效率,且该智能问答模型是利用无监督文档自动挖掘出的问答对、以及扩展问题训练得到的,不再需要人工来梳理问答对,消除了人工梳理的主观性带来的影响,进而能够提高文本的处理效果和实现智能问答的效率。

    一种确定热点事件的方法和相关装置

    公开(公告)号:CN112559745B

    公开(公告)日:2023-01-17

    申请号:CN202011442564.2

    申请日:2020-12-11

    Inventor: 戴瑾 胡加学

    Abstract: 本申请公开了一种确定热点事件的方法和相关装置,该方法包括:对目标领域的多个待挖掘文本进行聚类处理,将每个类簇中心对应的待挖掘文本确定为目标待挖掘文本;计算每个目标待挖掘文本与目标领域的知识图谱中每个事件的相似度;该知识图谱是基于目标领域的历史文本预先构建的,其中一条路径表示一个包括多个扩展语句的事件;判断相似度大于等于预设相似度时,确定该相似度对应的事件为热点事件。通过聚类对目标领域的多个待挖掘文本,计算每个类簇中心对应的待挖掘文本,与基于目标领域的历史文本预先构建的知识图谱中事件的相似度,将较大相似度对应的事件作为热点事件,能够直接自动挖掘得到目标领域的多个待挖掘文本所对应的热点事件。

    特征编码方法、装置、电子设备及可读存储介质

    公开(公告)号:CN111160043A

    公开(公告)日:2020-05-15

    申请号:CN201911419048.5

    申请日:2019-12-31

    Abstract: 本发明实施例提供一种特征编码方法、装置、电子设备及可读存储介质,获取待分析语句;将所述待分析语句输入至预先训练好的特征编码模型中,获得所述特征编码模型输出的特征编码结果;所述特征编码模型为注意力模块和训练好的生成对抗网络模型中的编码模块共同训练所得到。本发明实施例中的特征编码方法利用注意力模块和训练好的生成对抗网络模型中的编码模块共同训练特征编码模型,提高了特征编码模型的鲁棒性。

    知识库扩充方法、装置、电子设备和存储介质

    公开(公告)号:CN111125379A

    公开(公告)日:2020-05-08

    申请号:CN201911368840.2

    申请日:2019-12-26

    Inventor: 夏有君 李莉 戴瑾

    Abstract: 本发明实施例提供一种知识库扩充方法、装置、电子设备和存储介质,其中方法包括:确定知识库中任一知识点对应的种子句式,以及所述知识库对应领域的若干个累积句式;基于所述种子句式与每一累积句式的语义信息,和/或所述种子句式与每一累积句式在对应领域的业务知识图谱中的路径,对所述任一知识点进行扩充。本发明实施例提供的方法、装置、电子设备和存储介质,基于种子句式与每一累积句式的语义信息和/或在对应领域的业务知识图谱中的路径,对知识库进行自动扩充,有效节约了人力成本和时间成本,且能够解绑不同意图的句式,避免标准问之间的歧义,提高扩充质量和扩充效果。

Patent Agency Ranking