文本语料的处理方法和装置

    公开(公告)号:CN111160035A

    公开(公告)日:2020-05-15

    申请号:CN201911419932.9

    申请日:2019-12-31

    Abstract: 本发明公开了一种文本语料的处理方法和装置。其中,该方法包括:识别文本语料中的多个实体,以及多个实体关系;基于多个实体和多个实体关系,构建结构化矩阵,其中,结构化矩阵中的每个实体标注了对应的实体标签,每个实体关系标注了对应的关系标签;使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数;使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据,训练得到联合抽取模型,其中,联合抽取模型用于对文本语句进行预测。本发明解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型,由于预测实体时只能抽取单一实体之间的对应关系,导致无法解决多实体之间的关系抽取的技术问题。

    基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法

    公开(公告)号:CN109740151A

    公开(公告)日:2019-05-10

    申请号:CN201811576729.8

    申请日:2018-12-23

    Abstract: 本发明公开了一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法,包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并进行dropout计算,得到每个字符对应的Logits值;以及将上层产生的Logits值经过softmax计算,并与labels的概率分布进行交叉熵计算,最终得到该字符的类别标签。

    一种数据分级模型训练方法、装置、数据分级方法、装置

    公开(公告)号:CN113449318B

    公开(公告)日:2024-03-19

    申请号:CN202110680359.8

    申请日:2021-06-18

    Abstract: 本发明提供了一种数据分级模型训练方法、装置、数据分级方法、装置,包括:接收中心服务器下发的数据分级模型,并使用参与主机设备的本地数据对数据分级模型进行训练;在对数据分级模型训练完成后,基于随机数对数据分级模型的初始参数值进行混淆处理,得到第一参数值;将第一参数值发送至中心服务器;接收中心服务器发送的平均参数值,并根据平均参数值确定数据分级模型的最优参数值,从而得到目标数据分级模型。本发明参与主机设备不需要将数据发送给中心服务器,避免了参与主机设备的本地数据的流出,保护了数据隐私,并且参与主机设备对初始参数值进行混淆处理后发送给中心服务器处理,进一步保护了数据隐私,避免了数据隐私的泄露。

    文件下载行为异常检测方法、装置、电子设备及存储介质

    公开(公告)号:CN116582345A

    公开(公告)日:2023-08-11

    申请号:CN202310633263.5

    申请日:2023-05-31

    Abstract: 本申请实施例公开了一种文件下载行为异常检测方法、装置、电子设备及存储介质,该方法包括:获取用户当前待下载文件的数据量和当日文件下载量;根据用户在历史时间内的单次文件下载数据量的中位数、最大值和最小值,对当前待下载文件的数据量进行行为偏离度量量化,得到数据量度量值;根据用户在历史时间内的单日文件下载量的中位数、最大值和最小值,对当日文件下载量进行行为偏离度量量化,得到当日文件下载量度量值;根据数据量度量值与数据量度量基线的大小关系以及当日文件下载量度量值与单日文件下载量度量基线的大小关系,确定用户的当前文件下载行为是否异常。本申请实施例可以提高检测的准确度。

    文本语料的处理方法和装置

    公开(公告)号:CN111160035B

    公开(公告)日:2023-06-20

    申请号:CN201911419932.9

    申请日:2019-12-31

    Abstract: 本发明公开了一种文本语料的处理方法和装置。其中,该方法包括:识别文本语料中的多个实体,以及多个实体关系;基于多个实体和多个实体关系,构建结构化矩阵,其中,结构化矩阵中的每个实体标注了对应的实体标签,每个实体关系标注了对应的关系标签;使用神经网络模型中的反向传播算法来更新神经网络模型的模型参数;使用更新了模型参数的神经网络模型来训练结构化矩阵中的数据,训练得到联合抽取模型,其中,联合抽取模型用于对文本语句进行预测。本发明解决了相关技术中联合抽取方式采用神经网络来建立实体和关系之间的模型,由于预测实体时只能抽取单一实体之间的对应关系,导致无法解决多实体之间的关系抽取的技术问题。

    邮件外发异常行为检测方法、装置、移动终端及存储介质

    公开(公告)号:CN116248378A

    公开(公告)日:2023-06-09

    申请号:CN202310125536.5

    申请日:2023-02-14

    Abstract: 本申请提供了一种邮件外发异常行为检测方法、装置、移动终端及存储介质,通过获取第一邮件外发日志数据;根据预先设置的异常检测模型,对第一邮件外发日志数据进行异常行为检测,获取第一异常行为检测结果,其中,异常检测模型根据第一邮件外发日志数据获得。根据邮件外发日志数据获得的异常检测模型相比预先设置、基于人工制定的规则库更贴近用户的使用习惯,解决了现有技术面对用户现有技术中面对用户多样化、存在不确定因素的外发邮件难以通过预先制定的规则检测出异常行为的问题,提高了邮件外发异常行为检测的准确性和检测效率。

    文档分类模型构建、训练、测试方法及模型构建系统

    公开(公告)号:CN113177595B

    公开(公告)日:2022-07-12

    申请号:CN202110477900.5

    申请日:2021-04-29

    Abstract: 本发明实施例提供一种文档分类模型构建、训练、测试方法及模型构建系统,模型构建方法包括:向N个第一终端发送文档分类模型网络结构,N为大于或者等于1的整数;根据N个第一终端的排序顺序,依次向每个第一终端发送参考模型参数,并接收反馈的目标模型参数,服务器向排序首位的第一终端发送的参考模型参数由服务器构建,在N大于或者等于2时,除排序首位的第一终端,每个第一终端接收到的参考模型参数为前一个第一终端反馈的目标模型参数;根据文档分类模型网络结构和排序末位的第一终端反馈的目标模型参数,生成目标文档分类模型。本发明可以保证文档不出客户端边界,同时能完成模型训练,有效降低数据泄露风险。

    一种身份认证方法及装置
    19.
    发明授权

    公开(公告)号:CN113472734B

    公开(公告)日:2022-04-19

    申请号:CN202110496342.7

    申请日:2021-05-07

    Abstract: 本发明实施例提供了一种身份认证方法及装置,通过向待认证设备集发送随机数;待认证设备集包括至少一个待认证设备的设备标识;接收待认证设备集中各待认证设备发送的密文,得到密文集;其中,密文集中各密文为相对应的待认证设备基于随机数生成的;根据预设公钥对密文集进行解密,得到集合认证信息;在集合认证信息和随机数一致的情况下,确定各待认证设备通过身份认证。本发明的方法能够实现对待认证设备的并行认证,大幅提高了对待认证设备进行身份认证的效率,此外,密文集是由各待认证设备生成的密文组合而成的,需要获得所有待认证设备的私钥才能破解本发明的身份认证方法,大大提升了网络设备的安全性。

    跨领域语言模型训练方法、装置、电子设备及存储介质

    公开(公告)号:CN111143518B

    公开(公告)日:2021-09-07

    申请号:CN201911400691.3

    申请日:2019-12-30

    Abstract: 本申请提供了一种跨领域语言模型训练方法、装置、电子设备及存储介质,所述方法包括:获得多个领域的语料训练集;基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。本申请提供了一种跨领域语言模型训练方法,通过基于线性插值的语言模型混合方法,将多个领域的语言模型混合为一个模型,有效解决了语言模型跨领域的脆弱性,提高了语言模型性能指标以及降低了语言模型的困惑度。

Patent Agency Ranking