一种基于自然邻域密度的数据不平衡分类过采样方法、装置、设备及介质

    公开(公告)号:CN115481300A

    公开(公告)日:2022-12-16

    申请号:CN202211300942.2

    申请日:2022-10-24

    Abstract: 本发明属于数据不平衡预处理领域,具体涉及一种基于自然邻域密度的数据不平衡分类过采样方法,包括:获得待处理的不平衡数据集;搜索不平衡数据集中的数据,构建所有少数类样本的自然邻域;根据每个少数类样本的自然邻域内同质与异质样本的比例关系,筛选出种子样本集;提取每个种子样本的自然邻域密度;计算每个种子样本的权重信息;通过线性插值的方式合成新样本;汇总新合成样本集、种子样本集与多数类样本集,得到采样后的平衡数据集。本发明根据自然邻域关系的无参数邻域搜索策略,能自适应地搜索合适的邻域,也能有效地区分并过滤噪声样本和离群样本,同时,对邻域进行了合理地泛化,平衡数据分布的同时提高了数据质量。

    一种结合领域知识的药物分子生成方法

    公开(公告)号:CN115410659A

    公开(公告)日:2022-11-29

    申请号:CN202211061498.3

    申请日:2022-09-01

    Abstract: 本发明涉及药物表示学习领域,具体涉及一种结合领域知识的药物分子生成方法,包括利用构象搜索算法获得分子3D构象,从而获得分子空间信息,利用分子空间信息增强分子的初始表示;利用优化后的谱聚类算法以及优化后的CH聚类评价指标获取分子的分子划分结果;根据分子的增强表示和分子划分结果,利用图卷积神经网络对其编码获得其隐空间嵌入表示,即分别为全局图表示和局部子图表示;利用互信息最大化机制优化全局图表示和局部子图表示,得到富含空间信息和子结构信息的分子表示,并应用于下游分子生成任务;本发明有助于捕捉到分子的空间和结构信息,同时能更好地服务于基于深度学习的药物发现领域相关任务。

Patent Agency Ranking