-
公开(公告)号:CN117574901A
公开(公告)日:2024-02-20
申请号:CN202311543190.7
申请日:2023-11-20
Applicant: 之江实验室
IPC: G06F40/295 , G06F40/242 , G06F18/2431 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种实体定位和分类方法、装置、设备及存储介质。本发明将实体识别过程拆分成两步,先单独进行BIO标签预测而不考虑实体,再对BIO序列重新补充实体名,能够提高模型的预测性能,对于相似实体也能够达到可观的预测精度。通过多线程技术,本发明的模型可以训练较大批量的训练集,模型的召回率和准确率均高于简单使用BERT+CRF的实体识别模型。本发明对实体定位模型采取奇偶轮交替训练的策略时,能够更好的召回实体。
-
公开(公告)号:CN115982403B
公开(公告)日:2024-02-02
申请号:CN202310085564.9
申请日:2023-01-12
Applicant: 之江实验室
IPC: G06F16/583 , G06F16/55 , G06F16/51 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/09
Abstract: 本发明公开了一种多模态哈希检索方法及装置,该方法包括:获取带有标签的训练数据集;构建带有Transformer Encoder模块的多模态神经网络;根据所述训练数据集中的每个多模态数据经过所述多模态神经网络生成的哈希码与该多模态数据对应的标签,设计目标损失函数;根据所述目标损失函数,采用梯度下降法更新所述多模态神经网络的参数,以训练所述多模态神经网络;获取多模态原始数据并对所述多模态原始数据进行特征工程加工;将加工后的多模态原始数据输入训练后的多模态神经网络中,生成多模态哈希码;利用所述多模态哈希码,进行哈希检索。该方法使用Transformer网络实现多模态特征融合,与单模态哈希表示学习相比,检索的平均准确率(mAP)更高。
-
公开(公告)号:CN116579308A
公开(公告)日:2023-08-11
申请号:CN202310819781.6
申请日:2023-07-06
Applicant: 之江实验室
IPC: G06F40/166 , G06F40/14 , G06F40/109 , G06F40/258 , G06F40/237 , G06F40/284 , G06F40/216
Abstract: 本发明公开了一种演示文稿生成方法及装置,该方法包括:获取生成演示文稿的主题,基于预先构建并训练完成的文本生成模块,得到演示文稿的二级标题和每个二级标题下的文字内容;将所述演示文稿的主题、二级标题和每个二级标题下的文字内容结构化得到若干部分,将每个部分作为一页演示文稿,对除了首页和目录页以外的其他页进行关键词提取;基于提取出的关键词,通过文本生成图像模块生成各页演示文稿对应的配图图像;把划分后的文字内容和对应页的配图图像进行自动排版,得到完整的演示文稿。
-
公开(公告)号:CN111312401A
公开(公告)日:2020-06-19
申请号:CN202010038223.2
申请日:2020-01-14
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多标签学习的体检后慢性疾病预后系统,该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;数据获取模块用于获取体检用户的体检数据;基础预测模型构建模块用于构建针对体检场景的多标签学习模型;本地预测模块包括本地模型训练单元和预测单元,本地模型训练单元将训练好的本地预测模型固化至本地预测模块内,预测单元输出对多个慢性疾病发生情况的预测预后指数,最终获得慢病未来预期发生时间。本发明系统使用多标签学习方法,能够对慢性疾病并发情况下的内部关系进行提取,更加符合慢性疾病高并发性的特点,能够更好地完成对未来慢性疾病发生情况的准确预测。
-
公开(公告)号:CN116779021A
公开(公告)日:2023-09-19
申请号:CN202310329242.4
申请日:2023-03-29
Applicant: 之江实验室
IPC: G16B15/30 , G16B30/00 , G16C20/50 , G06N3/0464 , G06N3/08
Abstract: 一种基于自动特征交叉的药物靶标结合亲和力预测方法,包括:获取药物分子SMILES序列、靶标蛋白氨基酸序列以及固有属性特征;将SMILES序列表示为基于原子和化学键构成的图;分别对药物分子图和氨基酸序列表征学习,获得药物分子的特征嵌入和氨基酸的特征嵌入;对药物分子及靶标蛋白的类别型固有属性特征进行嵌入表征,获得类型型固有属性特征嵌入;使用SENet对前述步骤各类特征嵌入进行相关性建模,动态学习特征重要性;采用自动特征交叉方法对筛选的特征进行特征交叉;基于筛选特征和交叉特征,获得药物分子与靶标蛋白的结合亲和力预测值。本发明能够自适应的学习和融合药物分子和靶标蛋白的特征信息,大大提升了药物分子与靶标蛋白结合亲和力预测的准确度。
-
公开(公告)号:CN111312401B
公开(公告)日:2021-12-17
申请号:CN202010038223.2
申请日:2020-01-14
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多标签学习的体检后慢性疾病预后系统,该系统包括数据获取模块、数据预处理模块、基础预测模型构建模块和本地预测模块;数据获取模块用于获取体检用户的体检数据;基础预测模型构建模块用于构建针对体检场景的多标签学习模型;本地预测模块包括本地模型训练单元和预测单元,本地模型训练单元将训练好的本地预测模型固化至本地预测模块内,预测单元输出对多个慢性疾病发生情况的预测预后指数,最终获得慢病未来预期发生时间。本发明系统使用多标签学习方法,能够对慢性疾病并发情况下的内部关系进行提取,更加符合慢性疾病高并发性的特点,能够更好地完成对未来慢性疾病发生情况的准确预测。
-
公开(公告)号:CN110728291A
公开(公告)日:2020-01-24
申请号:CN201910629792.1
申请日:2019-07-12
Applicant: 之江实验室
IPC: G06K9/62
Abstract: 本发明公开了一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括部署在参与协同计算的各中心的前置机、接收并整合各中心特征重要性排序结果的中心服务器、将最终特征重要性排序结果反馈给用户的结果展示模块。本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心数据的条件下,各个中心的数据始终在各中心,只向中心服务器传递中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。
-
公开(公告)号:CN117057442A
公开(公告)日:2023-11-14
申请号:CN202311298511.1
申请日:2023-10-09
Applicant: 之江实验室
IPC: G06N20/00 , G06N3/048 , G06N3/0464 , G06N3/08 , G06V10/764 , G06V10/82
Abstract: 本说明书公开了一种基于联邦多任务学习的模型训练方法、装置及设备,中心服务器将各客户端对应的初始模型参数发送给各客户端,以使各客户端对基于各自的初始模型参数得到的模型进行训练,并将训练后的模型的优化模型参数返回给中心服务器,中心服务器根据各客户端对应的优化模型参数,确定各客户端对应的对优化模型参数进行加权的权重,并根据各客户端对应的对各优化模型参数进行加权的权重,确定适用于各客户端的模型参数,得到适用于各客户端的模型。由于各客户端的数据分布存在差异,因此本方法在模型的每次迭代训练过程中,根据权重确定各客户端的模型参数,使得各客户端得到更加泛化的模型的同时,可得到适用于各自数据分布的个性化模型。
-
公开(公告)号:CN116562218A
公开(公告)日:2023-08-08
申请号:CN202310493297.9
申请日:2023-05-05
Applicant: 之江实验室
IPC: G06F30/392 , G06F17/16 , G06N3/0464 , G06N3/092
Abstract: 一种基于强化学习实现矩形宏单元的布图规划方法,包含:根据公开数据集ispd2005整理宏单元和标准单元信息;用GCN对宏单元编码;将宏单元按照面积从大到小排序,将排好顺序的宏单元信息和宏单元编码作为双线性模型的输入,提取环境特征;根据宏单元大小计算掩模矩阵确定当前宏单元可摆放的范围;将环境特征作为强化学习策略网络的输入,策略网络输出宏单元摆放位置的概率;根据策略网络的输出和掩模矩阵确定宏单元的位置;奖励函数设为总线长、拥塞程度和布局密度的加权和。还包括一种基于强化学习实现矩形宏单元的布图规划系统。本发明在满足宏单元互相不相交的约束条件下,为用强化学习求解不同大小的矩形宏单元的布图规划问题提供了一种解决方案。
-
公开(公告)号:CN116382599A
公开(公告)日:2023-07-04
申请号:CN202310669715.5
申请日:2023-06-07
Applicant: 之江实验室
Abstract: 本说明书公开了一种面向分布式集群的任务执行方法、装置、介质及设备。所述面向分布式集群的任务执行方法包括:获取样本数据,根据磁盘带宽和本地延迟,以及网络带宽和网络延迟,对样本数据的数量进行划分,将第一样本数量的样本数据存储在各计算节点的本地磁盘,将第二样本数量的样本数据存储在存储节点,针对每个计算节点,将该计算节点的本地磁盘中指定数量的样本数据与其他计算节点的本地磁盘中的样本数据进行交换,得到更新后样本数据,以及,从所述存储节点中读取远端样本数据,根据更新后本地样本数据和远端样本数据,在该计算节点上执行当前训练周期针对目标模型的训练任务。
-
-
-
-
-
-
-
-
-