-
公开(公告)号:CN107771334A
公开(公告)日:2018-03-06
申请号:CN201680034233.0
申请日:2016-06-06
Applicant: 微软技术许可有限责任公司
Inventor: P·A·贝恩斯泰因 , 何业烨 , E·科特兹卡斯托迪奥维拉林霍 , L·诺维克
CPC classification number: G06F17/3053 , G06F17/241 , G06F17/246 , G06F17/30286 , G06F17/30525
Abstract: 通过使用源对目标列执行自动注释来改进对目标数据库的目标列的注释的技术和构造。这些技术包括计算在目标列与从在源中所包括的表格提取的列之间的相似度得分。相似度得分至少部分基于在目标数据库的目标列中的值与从表格中提取的列的列值之间的相似度以及在目标数据库的目标列的身份与从表格中提取的列的列身份之间的相似度来计算。在一些示例中,这些技术计算一个或多个所提取列的相似度得分,并且基于相似度得分来注释目标列。
-
公开(公告)号:CN107771334B
公开(公告)日:2021-08-06
申请号:CN201680034233.0
申请日:2016-06-06
Applicant: 微软技术许可有限责任公司
Inventor: P·A·贝恩斯泰因 , 何业烨 , E·科特兹卡斯托迪奥维拉林霍 , L·诺维克
IPC: G06F16/2457 , G06F40/18 , G06F40/169 , G06F16/20
Abstract: 通过使用源对目标列执行自动注释来改进对目标数据库的目标列的注释的技术和构造。这些技术包括计算在目标列与从在源中所包括的表格提取的列之间的相似度得分。相似度得分至少部分基于在目标数据库的目标列中的值与从表格中提取的列的列值之间的相似度以及在目标数据库的目标列的身份与从表格中提取的列的列身份之间的相似度来计算。在一些示例中,这些技术计算一个或多个所提取列的相似度得分,并且基于相似度得分来注释目标列。
-
公开(公告)号:CN107690637A
公开(公告)日:2018-02-13
申请号:CN201680031499.X
申请日:2016-05-18
Applicant: 微软技术许可有限责任公司
IPC: G06F17/30
CPC classification number: G06F17/30454 , G06F17/30498 , G06F17/30536 , G06F17/30864
Abstract: 本公开的示例实现使用大表语料库执行语义连接。标识来自至少两个数据集的值对。值对包括来自数据集中的第一数据集的一个值和来自数据集中的第二数据集的一个值。基于共现数据,确定针对所标识的值对的统计共现得分。所确定的统计共现得分用于预测至少两个数据集之间的语义关系。所预测的语义关系用于连接至少两个数据集。
-
公开(公告)号:CN118020065A
公开(公告)日:2024-05-10
申请号:CN202280065303.4
申请日:2022-07-25
Applicant: 微软技术许可有限责任公司
Inventor: M·巴拉苏布拉马尼安 , 刘冷宁 , A·库帕 , K·H·弗赖海特 , K·王 , P·B·格雷夫 , P·C·利特尔 , L·普里茨 , 王玥 , V·R·纳拉萨亚 , K·阿伦基社里 , 何业烨 , S·乔杜里
IPC: G06F16/22 , G06F16/901 , G06F16/215
Abstract: 用于数据统一的解决方案包括:接收数据记录,该数据记录包括多个数据字段;从多个数据字段中选择数据字段的子集,该数据字段的子集在数量上少于该多个数据字段,其中选择数据字段的子集包括:应用第一规则来选择数据记录内的数据字段中的至少第一数据字段以包含在数据字段的子集中;使用数据字段子集的内容,来生成数据记录的稳定标识符(stableID);将stableID插入到数据记录的主键数据字段中。
-
公开(公告)号:CN113728321A
公开(公告)日:2021-11-30
申请号:CN202080027004.2
申请日:2020-03-09
Applicant: 微软技术许可有限责任公司
IPC: G06F40/177
Abstract: 本公开涉及用于使用各种假设测试来识别表格和其他结构化数据集内的错误的系统、方法、以及计算机可读介质。例如,本文中公开的系统可以通过从输入表格中移除一个或多个条目来从输入表格生成修改的表格。本文中公开的系统还可以利用训练表格的集合来确定与输入表格和修改的表格是否是从训练表格的集合中抽取相关联的概率。本文中公开的系统可以另外比较概率,以准确地确定一个或多个条目中是否包括错误。本文中公开的系统可以应用于各种不同大小和类型的表格,以识别输入表格内不同类型的常见错误。
-
公开(公告)号:CN107690637B
公开(公告)日:2021-05-28
申请号:CN201680031499.X
申请日:2016-05-18
Applicant: 微软技术许可有限责任公司
IPC: G06F16/2453 , G06F16/2455 , G06F16/2458 , G06F16/28 , G06F16/951
Abstract: 本公开的示例实现使用大表语料库执行语义连接。标识来自至少两个数据集的值对。值对包括来自数据集中的第一数据集的一个值和来自数据集中的第二数据集的一个值。基于共现数据,确定针对所标识的值对的统计共现得分。所确定的统计共现得分用于预测至少两个数据集之间的语义关系。所预测的语义关系用于连接至少两个数据集。
-
-
-
-
-