一种Hi-C数据分辨率增强方法及装置

    公开(公告)号:CN113628112A

    公开(公告)日:2021-11-09

    申请号:CN202110914432.3

    申请日:2021-08-10

    Abstract: 本发明公开了一种Hi‑C数据分辨率增强方法及装置,所述方法包括:获取原始高分辨率Hi‑C数据和原始高分辨率Hi‑C数据所在细胞系的表观基因组数据;对原始高分辨率Hi‑C数据和表观基因组数据进行预处理,得到原始高分辨率Hi‑C数据对应的Hi‑C数据矩阵和表观基因组数据的相关性矩阵;通过Hi‑C数据矩阵和相关性矩阵对预设的神经网络进行训练,得到分辨率增强模型;基于分辨率增强模型,根据分辨率待增强的Hi‑C数据和对应的表观基因组数据,得到相应的增强后的Hi‑C数据。本发明可以适用于具备多种低分辨率Hi‑C数据和表观基因组数据情况下,实现将低分辨率Hi‑C数据增强至1kb高分辨率。

    一种基于超图的染色质域识别方法及系统

    公开(公告)号:CN116052764A

    公开(公告)日:2023-05-02

    申请号:CN202211633867.1

    申请日:2022-12-19

    Abstract: 本发明提供了一种基于超图的染色质域识别方法及系统,该方法包括:获取表观基因组数据;并对数据进行预处理,按照一定碱基对数量对染色质进行片段切割,将每个片段看作基因组一个节点,获取Hi‑C交互作用矩阵;计算各基因组节点由空间交互作用数据和表观基因组数据共同表示的特征向量;对Hi‑C数据矩阵生成初始TADs划分,使用聚类算法根据节点特征对节点进行聚类,调整簇内节点,得到优化后的TADs结构划分。将优化后的TADs划分表示为超图,TADs节点集合作为超边,通过对超图划分识别。将划分后的染色质区域映射到细胞核中探索其生物学意义。本发明适用于生物信息计算领域中染色质域的识别与功能相关研究。

    一种Hi-C数据拓扑相关结构域划分方法及装置

    公开(公告)号:CN114864006A

    公开(公告)日:2022-08-05

    申请号:CN202210482784.0

    申请日:2022-05-05

    Abstract: 本发明公开了一种Hi‑C数据拓扑相关结构域划分方法及装置,该方法包括:获取Hi‑C基因组测序原始观察数据和用于将原始观察矩阵进行归一化的向量,对原始观察数据预处理,得到归一化的Hi‑C接触矩阵;基于Hi‑C数据接触频率和空间距离之间的关系,将Hi‑C接触矩阵转换为基因组各个位点之间的距离矩阵;通过最短路径算法计算基因组位点间的最短距离,对于每个位点保留距离最小的部分数值得到基因组的空间距离图谱;通过聚类算法对基因组的空间距离图谱中的位点进行聚类,得到Hi‑C数据的TAD划分。本发明通过Hi‑C数据归一化、转换并计算最短路径和基因组位点聚类,实现对染色质TAD的划分。

    一种DNA序列增强子-启动子交互作用识别方法及装置

    公开(公告)号:CN117766027A

    公开(公告)日:2024-03-26

    申请号:CN202311836407.3

    申请日:2023-12-28

    Abstract: 本发明公开了一种DNA序列增强子‑启动子交互作用识别方法及装置,属于医学工程技术领域。所述方法包括:获取细胞系对应的增强子‑启动子交互作用数据集;将数据集中的DNA序列对输入到预先训练好的自然语言模型中,获得每个DNA序列的词嵌入编码;利用获取的词嵌入编码构建图结构数据;利用图结构数据对图神经网络模型进行训练,获得训练好的图神经网络模型;获取待预测DNA序列对并输入到预先训练好的自然语言模型中,获得每个待预测DNA序列的词嵌入编码;根据预测的词嵌入编码构建图结构数据;将待预测图结构数据输入训练好的图神经网络模型中,获得DNA序列对中增强子‑启动子交互作用识别结果。采用本发明,可以提高增强子‑启动子交互作用识别准确率。

    一种Hi-C数据分辨率增强方法及装置

    公开(公告)号:CN113628112B

    公开(公告)日:2024-07-12

    申请号:CN202110914432.3

    申请日:2021-08-10

    Abstract: 本发明公开了一种Hi‑C数据分辨率增强方法及装置,所述方法包括:获取原始高分辨率Hi‑C数据和原始高分辨率Hi‑C数据所在细胞系的表观基因组数据;对原始高分辨率Hi‑C数据和表观基因组数据进行预处理,得到原始高分辨率Hi‑C数据对应的Hi‑C数据矩阵和表观基因组数据的相关性矩阵;通过Hi‑C数据矩阵和相关性矩阵对预设的神经网络进行训练,得到分辨率增强模型;基于分辨率增强模型,根据分辨率待增强的Hi‑C数据和对应的表观基因组数据,得到相应的增强后的Hi‑C数据。本发明可以适用于具备多种低分辨率Hi‑C数据和表观基因组数据情况下,实现将低分辨率Hi‑C数据增强至1kb高分辨率。

    一种DNA序列增强子-启动子交互作用识别方法及装置

    公开(公告)号:CN117766027B

    公开(公告)日:2024-06-18

    申请号:CN202311836407.3

    申请日:2023-12-28

    Abstract: 本发明公开了一种DNA序列增强子‑启动子交互作用识别方法及装置,属于医学工程技术领域。所述方法包括:获取细胞系对应的增强子‑启动子交互作用数据集;将数据集中的DNA序列对输入到预先训练好的自然语言模型中,获得每个DNA序列的词嵌入编码;利用获取的词嵌入编码构建图结构数据;利用图结构数据对图神经网络模型进行训练,获得训练好的图神经网络模型;获取待预测DNA序列对并输入到预先训练好的自然语言模型中,获得每个待预测DNA序列的词嵌入编码;根据预测的词嵌入编码构建图结构数据;将待预测图结构数据输入训练好的图神经网络模型中,获得DNA序列对中增强子‑启动子交互作用识别结果。采用本发明,可以提高增强子‑启动子交互作用识别准确率。

    混合结构的多模态数据查询语言的方法及系统

    公开(公告)号:CN119149561A

    公开(公告)日:2024-12-17

    申请号:CN202411109001.X

    申请日:2024-08-13

    Abstract: 本发明公开了一种混合结构的多模态数据查询语言的方法和系统,涉及数据处理技术领域。包括:用户自主创建多模态数据集的数据模式,获取不同类型数据元素之间的嵌套关系;选择一个关键数据结构或辅以算法作为整个数据模式的第一层结构,其他数据元素可作为嵌套其中的子结构,并辅以算法形成新的数据结构;根据数据结构所形成的嵌套关系,建立数据元素对象;根据定义的数据模式表示规则、属性表示规则、值变换规则以及表达式过滤条件,完成多模态数据集查询语言动态自主构建;获取用户输入的查询语句,根据查询语句以及构建的多模态数据集查询语言,得到查询结果。本发明解决了传统SQL语言与多模态数据兼容度低的问题。

    一种基于区块链的可验证检索方法及系统

    公开(公告)号:CN116860825A

    公开(公告)日:2023-10-10

    申请号:CN202310704485.1

    申请日:2023-06-14

    Abstract: 本发明涉及区块链数据检索技术领域,特别是指一种基于区块链的可验证检索方法及系统。一种基于区块链的可验证检索方法包括:采集检索信息,获得检索关键字;根据检索关键字,通过数据索引结构进行检索,获得材料分类id集合以及元数据集合;将材料分类id集合,输入区块链背书节点,获得MPT树根哈希以及分类哈希表;根据MPT树根哈希以及分类哈希表,获得分类证明哈希表;根据分类证明哈希表以及元数据集合进行验证,获得检索结果以及验证结果。本发明是一种面对区块链的可验证高效检索方法。

    一种基于不均衡数据集的地下金属目标分类方法及系统

    公开(公告)号:CN115795353B

    公开(公告)日:2023-04-21

    申请号:CN202310064110.3

    申请日:2023-02-06

    Abstract: 本发明公开了一种基于不均衡数据集的地下金属目标分类方法及系统,该方法包括:获取地下金属目标样本数据,构建样本数据库;对样本数据中的各磁场强度数据分别进行特征提取,得到样本特征数据;根据不同类别地下金属目标的样本数量,自适应地构建多个平衡样本数据集;利用平衡样本数据集对多个预设的机器学习模型分别进行训练,得到多个地下金属目标分类子模型;集成各个地下金属目标分类子模型,得到最终的地下金属目标分类模型;利用地下金属目标分类模型得到待测的地下金属目标对应的类别。本发明的技术方案在地下金属目标类别不均衡的数据集下,保证了地下金属目标分类的准确率。

    一种抗噪的高精度测距方法及装置

    公开(公告)号:CN113780573A

    公开(公告)日:2021-12-10

    申请号:CN202110956973.2

    申请日:2021-08-19

    Abstract: 本发明公开了一种抗噪的高精度测距方法及装置,该方法包括:采集样本数据,包括接收到的磁场强度数据、电场强度数据以及传播距离;采用预设的特征提取算法对样本数据中的磁场强度数据与电场强度数据进行特征提取,获得样本特征数据;以样本特征数据作为输入,以传播距离作为输出,训练并得到基于机器学习的距离估计模型;实时采集待测的传播距离对应的磁场强度数据与电场强度数据,并采用预设的特征提取算法进行特征提取,将提取到的特征数据输入到距离估计模型中,得到预测的传播距离。本发明解决了现有技术因环境噪声导致的测距误差大甚至无法求解的问题,同时通过特征提取的方法避免了在使用机器学习方法训练距离估计模型时的特征冗余的问题。

Patent Agency Ranking