-
公开(公告)号:CN117235090A
公开(公告)日:2023-12-15
申请号:CN202311252232.1
申请日:2023-09-26
Applicant: 复旦大学
Abstract: 本发明提供了一种面向数据湖中表数据的数据发现方法,具有这样的特征,包括以下步骤:步骤S1,构建表的索引;步骤S2,根据索引检索并计算关联表的相关性数据;步骤S3,根据所有相关性数据构建得到多个相关子图;步骤S4,将相关子图转化为第一虚拟文档;步骤S5,计算第一相似度;步骤S6,构建初筛图;步骤S7,对所有初筛图进行合并得到合并图;步骤S8,将合并图转化为第二虚拟文档;步骤S9,计算第二相似度;步骤S10,构建复筛图;步骤S11,通过成本函数对n个复筛图对应的所有相关子图进行相关度排序,将排序后的相关子图作为检索结果。总之,本方法能够根据检索关键字检索得到更加准确的检索结果。