-
公开(公告)号:CN110674390B
公开(公告)日:2022-05-20
申请号:CN201910747703.3
申请日:2019-08-14
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明公开了一种基于置信度的群体发现方法及装置,所述方法包括:步骤1,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;步骤2,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度;步骤3,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户;步骤4,获取新种子用户,重复执行步骤1‑4直到达到预先设置的迭代次数。
-
公开(公告)号:CN112307351A
公开(公告)日:2021-02-02
申请号:CN202011318160.2
申请日:2020-11-23
Applicant: 中国科学院计算技术研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/9535 , G06F16/9536 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本申请公开了用户行为的模型训练、推荐方法、装置和设备,模型训练方法包括:获取用户行为序列;将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达;根据当前用户表达与用户行为序列,得到第一训练样本;根据第一训练样本采用互信息损失函数确定互信息损失值,并根据互信息损失值更新用户行为序列模型的模型参数;以更新后的模型参数作为当前模型参数,返回执行将用户行为序列输入当前模型参数下的用户行为序列模型,得到当前用户表达的步骤,直至当前模型参数满足预设条件。本申请通过基于互信息最大化的无监督学习方法实现了用户行为序列建模,降低用户行为序列模型的训练时间和成本,可广泛应用于人工智能领域。
-
公开(公告)号:CN109753602B
公开(公告)日:2020-12-25
申请号:CN201811473591.9
申请日:2018-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。
-
公开(公告)号:CN109753602A
公开(公告)日:2019-05-14
申请号:CN201811473591.9
申请日:2018-12-04
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06Q50/00
Abstract: 本发明涉及一种基于机器学习的跨社交网络用户身份识别方法和系统,其中所述方法包括:包含跨网络用户信息的采集、文本分析精准用户身份对齐标注以及用户信息特征抽取模块,基于用户属性信息以及用户社交关系的对齐用户候选集的构建,基于用户属性信息、用户发布内容与用户社交表示特征拼接的精准用户身份对齐模型构建与参数学习,提供跨网络用户身份对齐的查询服务并构建跨网络综合用户画像。本发明通过对不同网络用户的属性集用户关注关系的特征拼接的精准身份对齐模型,实现跨网络用户身份对齐,构建更加详细的用户画像。
-
公开(公告)号:CN110674390A
公开(公告)日:2020-01-10
申请号:CN201910747703.3
申请日:2019-08-14
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明公开了一种基于置信度的群体发现方法及装置,所述方法包括:步骤1,设置群体的约束条件,基于所述约束条件生成群体的候选用户集及候选网络;步骤2,基于所述候选用户集及所述候选网络综合得到每个候选用户属于该群体的置信度;步骤3,根据所述候选用户的置信度,与预先设置的置信度阈值进行比较,发现新种子用户和新候选用户;步骤4,获取新种子用户,重复执行步骤1-4直到达到预先设置的迭代次数。
-
公开(公告)号:CN115391522A
公开(公告)日:2022-11-25
申请号:CN202210921496.0
申请日:2022-08-02
Applicant: 中国科学院计算技术研究所
IPC: G06F16/35 , G06F40/30 , G06F40/258 , G06F40/295 , G06Q50/00 , G06N3/08
Abstract: 本发明提出一种基于社交平台元数据的文本主题建模方法和系统,包括基于文本数据的关键词,构建文本数据的词袋表示;基于文本数据的元数据类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用目标语义提取模型提取文本数据的文本语义表示;基于文本语义表示构造语义约束目标,以语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题‑关键词分布和主题嵌入表示。方法及系统可以对移动应用内广泛存在的短文本消息进行主题建模,提取出主题的关键词并学习得到主题的嵌入表示。
-
公开(公告)号:CN112564712A
公开(公告)日:2021-03-26
申请号:CN202011344089.5
申请日:2020-11-26
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种基于深度强化学习的网络编码方法,所述方法包括:源节点将要发送的信息划分成K个片,根据源节点编码模型确定每个片的编码系数,生成并向下一跳节点发送编码包;中间节点接收前一节点发送的编码包,将收到的编码包再次编码,根据中间节点编码模型确定编码系数,生成并向下一跳节点发送编码包,其中所述源节点和中间节点编码模型通过对DQN网络训练得到。本发明可以根据网络动态变化来自适应地调节编码系数,改善解码效率,并具备良好的模型泛化能力,能泛化于具有不同网络规模和不同链路质量下的网络,本发明分别在源节点和中间节点上分布式执行的各自的编码系数优化模型,简化了编码系数优化实施并且改善了DQN训练的稳定性。
-
公开(公告)号:CN112564712B
公开(公告)日:2023-10-10
申请号:CN202011344089.5
申请日:2020-11-26
Applicant: 中国科学院计算技术研究所
IPC: H03M7/40 , G06N3/0464 , G06N3/092
Abstract: 本发明提供一种基于深度强化学习的网络编码方法,所述方法包括:源节点将要发送的信息划分成K个片,根据源节点编码模型确定每个片的编码系数,生成并向下一跳节点发送编码包;中间节点接收前一节点发送的编码包,将收到的编码包再次编码,根据中间节点编码模型确定编码系数,生成并向下一跳节点发送编码包,其中所述源节点和中间节点编码模型通过对DQN网络训练得到。本发明可以根据网络动态变化来自适应地调节编码系数,改善解码效率,并具备良好的模型泛化能力,能泛化于具有不同网络规模和不同链路质量下的网络,本发明分别在源节点和中间节点上分布式执行的各自的编码系数优化模型,简化了编码系数优化实施并且改善了DQN训练的稳定性。
-
公开(公告)号:CN114077705A
公开(公告)日:2022-02-22
申请号:CN202111120139.6
申请日:2021-09-24
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536
Abstract: 本发明实施例提供了一种对社交平台上的媒体账号进行画像的方法和系统,该方法包括:获取社交平台的账号信息,识别其中符合第一筛选条件的媒体账号以构建第一集合,采集第一集合内的媒体账号的属性数据和历史贴文数据并存储于数据库,第一筛选条件包括地域条件和媒体类型条件;标注种子媒体账号,根据种子媒体账号从数据库检索符合第二筛选条件的关联媒体账号以共同构建第二集合,第二筛选条件从粉丝数、活跃度、双向信息交流的频次、新闻相关性中的至少一个方面进行筛选;基于第二集合中各个媒体账号的属性数据和历史贴文数据,从多个维度对相应媒体账号进行画像,得到多个维度的指标,并根据多个维度的指标计算媒体价值指数以标识媒体价值。
-
公开(公告)号:CN114065749A
公开(公告)日:2022-02-18
申请号:CN202111332368.4
申请日:2021-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F40/279 , G06F40/289 , G06F40/216 , G06F16/35 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种面向文本的粤语识别系统的训练方法,所述方法包括:A1、获取粤语和普通话文本语料,对语料所属语种进行人工标注以获得标注数据集,采用改进停用词表过滤标注数据集并进行分词获得训练数据集;A2、利用步骤A1中获得的训练数据集,训练浅层网络至收敛以获得粤语识别模型;A3、构建粤语特色词表,以步骤A1中获得的训练数据集中的语料为输入、以语料是否为粤语的判断结果为输出,基于粤语特色词表构建用于检索语料是否命中粤语特色词表的规则匹配模型;A4、以步骤A1中获得的训练数据集中的语料为输入、以语料是否为繁体中文的判断结果为输出构建简繁识别模型;A5、以粤语识别模型、规则匹配模型和简繁识别模型的输出训练融合模块。
-
-
-
-
-
-
-
-
-