网络信息传播影响力度量方法、系统及影响力最大化方法

    公开(公告)号:CN109741198B

    公开(公告)日:2021-03-05

    申请号:CN201811434864.9

    申请日:2018-11-28

    Abstract: 本发明涉及一种网络信息传播影响力度量方法、系统,包括:根据社交网络中消息传播的历史传播数据,构建节点和传播源的激活对;将社交网络中的用户作为节点,将给定消息的传播数据中参与时间为0的节点作为给定消息的传播源,通过聚合函数将传播源对节点的影响力进行聚合后通过影响力边际递减函数,得到节点在传播源下被激活的概率;以历史传播数据为训练数据,以概率的对数似然最大作为目标,对所有激活对使用随机梯度下降进行参数学习,得到节点间影响力,以得到传播源集合的影响力度量。本发明提出的基于数据驱动的影响力最大化方法直接基于本发明学习得到的影响力度量,对节点的边际效应进行估计,以高效地进行影响力最大化的节点集合选择。

    互联网金融项目信息抽取方法和系统

    公开(公告)号:CN108959204B

    公开(公告)日:2021-03-05

    申请号:CN201810653622.2

    申请日:2018-06-22

    Abstract: 本发明涉及一种互联网金融项目信息抽取方法和系统,包括:获取包含金融项目信息的训练网页,为训练网页划分目标项目区域,并为目标项目区域中的DOM树节点标注属性标签,根据训练网页的二维图像、HTML代码、DOM树,抽取DOM树节点的特征向量作为训练数据,训练属性标注模型;获取金融项目信息的待抽取网页,将待抽取网页的DOM树,确定待抽取网页的目标项目区域,根据待抽取网页的目标项目区域中项目列表是否为表格,执行相应的抽取步骤。本发明通过将两种不同特点的互联网金融项目列表分开并对应使用不同的抽取方法,极大的提高了抽取的效率和准确率。

    用户行为的模型训练、推荐方法、装置和设备

    公开(公告)号:CN112307351A

    公开(公告)日:2021-02-02

    申请号:CN202011318160.2

    申请日:2020-11-23

    Abstract: 本申请公开了用户行为的模型训练、推荐方法、装置和设备,模型训练方法包括:获取用户行为序列;将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达;根据当前用户表达与用户行为序列,得到第一训练样本;根据第一训练样本采用互信息损失函数确定互信息损失值,并根据互信息损失值更新用户行为序列模型的模型参数;以更新后的模型参数作为当前模型参数,返回执行将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达的步骤,直至当前模型参数满足预设条件。本申请通过基于互信息最大化的无监督学习方法实现了用户行为序列建模,降低用户行为序列模型的训练时间和成本,可广泛应用于人工智能领域。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287272A

    公开(公告)日:2021-01-29

    申请号:CN202011161424.8

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述分类方法基于超文本标记语言标签(HTML Tag),所述分类方法包括:步骤100、获取一组网站网页;步骤200、分别针对每一所述网站网页提取所述网站网页的统计特征和结构特征,得到每一所述网站网页对应的特征序列;步骤300、将所述特征序列输入神经网络进行所述神经网络的训练,得到网站列表页面分类器;步骤400、获取待分类的网站网页,根据所述步骤200得到所述待分类的网站网页的特征序列,将所述待分类的网站网页的特征序列输入所述步骤300得到的所述网站列表页面分类器,判断该待分类的网站网页是否为网站列表页面。

    一种基于机器学习的跨社交网络用户身份识别方法和系统

    公开(公告)号:CN109753602B

    公开(公告)日:2020-12-25

    申请号:CN201811473591.9

    申请日:2018-12-04

    Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。

    一种构建文本分类系统的方法、系统、介质及电子设备

    公开(公告)号:CN111966826A

    公开(公告)日:2020-11-20

    申请号:CN202010709070.X

    申请日:2020-07-22

    Abstract: 本发明实施例提供了种构建文本分类系统的方法、系统、介质及电子设备,该文本分类系统包括分句模块、句子级特征提取模块、篇章级特征提取模块和分类模块,该方法包括:A1、获取包括多个文本的训练集,所述训练集中的文本带有标记的所属类别,且其中至少部分文本是超长文本;A2、用分句模块根据预定义的分句规则对训练集中的每个文本进行分句以得到多个句子;A3、用所述训练集对文本分类系统的句子级特征提取模块、篇章级特征提取模块和分类模块进行多轮训练至收敛,得到文本分类系统;本发明减少了提取特征时丢失语义信息和结构信息的可能,最后根据文本的篇章特征用于后续的分类预测,提高了文本分类的准确率,尤其适用于对超长文本的准确分类。

    一种命名实体识别模型的训练方法及命名实体识别的方法

    公开(公告)号:CN111738004A

    公开(公告)日:2020-10-02

    申请号:CN202010546972.6

    申请日:2020-06-16

    Abstract: 本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

    一种基于熵的神经机器翻译动态解码方法及系统

    公开(公告)号:CN111428519A

    公开(公告)日:2020-07-17

    申请号:CN202010151246.4

    申请日:2020-03-06

    Abstract: 本发明提出一种基于熵的神经机器翻译动态解码方法及系统,通过分析句子的熵值与BLEU值之间的关系,发现BLEU值高的句子中单词的平均熵值比BLEU值低的句子中单词的平均熵值小,且熵值低的句子的BLEU值普遍比熵值高的句子的BLEU值高。通过计算句子的熵值与BLEU值之间的Pearson系数,发现两者之间存在相关性。因此,本发明提出在训练过程解码阶段的每个时间步,不仅要以一定的概率采样选择真实单词或预测单词获取上下文信息,还要根据上一个时间步的预测结果计算熵值,然后根据熵值动态调整上下文信息的权重。解决了神经机器翻译模型在解码过程中因训练和推断之间的上下文信息差异而导致的错误累积问题。

Patent Agency Ranking