面向数据湖中表数据的数据发现方法

    公开(公告)号:CN117235090A

    公开(公告)日:2023-12-15

    申请号:CN202311252232.1

    申请日:2023-09-26

    Applicant: 复旦大学

    Inventor: 金亦旻 杨卫东

    Abstract: 本发明提供了一种面向数据湖中表数据的数据发现方法,具有这样的特征,包括以下步骤:步骤S1,构建表的索引;步骤S2,根据索引检索并计算关联表的相关性数据;步骤S3,根据所有相关性数据构建得到多个相关子图;步骤S4,将相关子图转化为第一虚拟文档;步骤S5,计算第一相似度;步骤S6,构建初筛图;步骤S7,对所有初筛图进行合并得到合并图;步骤S8,将合并图转化为第二虚拟文档;步骤S9,计算第二相似度;步骤S10,构建复筛图;步骤S11,通过成本函数对n个复筛图对应的所有相关子图进行相关度排序,将排序后的相关子图作为检索结果。总之,本方法能够根据检索关键字检索得到更加准确的检索结果。

Patent Agency Ranking