一种多数据集中重复记录动态检测方法

    公开(公告)号:CN102169491A

    公开(公告)日:2011-08-31

    申请号:CN201110073460.3

    申请日:2011-03-25

    Applicant: 暨南大学

    Inventor: 刘波 潘久辉 张武

    Abstract: 本发明公开了一种动态地、并发地从多个信息源的数据集中检测数据内容完全相同的记录组的方法,本发明的检测方法从多个信息源的数据集中读取每条初始记录或变更记录,依据记录的固有字段由本发明构造的hash函数和验证码函数计算各记录Hash码和检验码,并动态地创建、修改一组由所有信息源的数据集所共享的桶及其相关信息,快速检测出分布在各个信息源中的重复记录组。本发明具有效率高、正确率高、内存资源利用率高、能够动态进行增量检测的优点。

    USP4抑制剂在制备治疗白血病产品中的应用

    公开(公告)号:CN118526480A

    公开(公告)日:2024-08-23

    申请号:CN202410464528.8

    申请日:2024-04-17

    Applicant: 暨南大学

    Abstract: 本发明公开了USP4抑制剂在制备治疗白血病产品中的应用,属于生物医药技术领域。USP4抑制剂通过抑制USP4活性,减弱白血病细胞的蛋白合成,抑制白血病细胞生长,进而阻止白血病的发病进程,从而达到白血病的治疗效果。对于本发明涉及的USP4抑制剂在制备治疗白血病产品中的用途属于首次公开。

    一种基于多种特征的问题相似度计算方法

    公开(公告)号:CN109344236B

    公开(公告)日:2020-09-04

    申请号:CN201811041071.0

    申请日:2018-09-07

    Applicant: 暨南大学

    Inventor: 刘波 彭永幸

    Abstract: 本发明公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF‑IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。

    基于深度学习的机器阅读理解方法、系统、设备及介质

    公开(公告)号:CN110688491A

    公开(公告)日:2020-01-14

    申请号:CN201910908549.3

    申请日:2019-09-25

    Applicant: 暨南大学

    Inventor: 刘波 付伟

    Abstract: 本发明公开了一种基于深度学习的机器阅读理解方法、系统、设备及介质,所述方法包括:构建问题分类模型﹑支持句查找模型和答案确定模型;将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。本发明适用于英文机器阅读理解任务,能够有效处理文章段落较多、需要在多段中进行推理才能获得答案的情况,提高机器阅读理解的准确性。

    一种基于多种特征的问题相似度计算方法

    公开(公告)号:CN109344236A

    公开(公告)日:2019-02-15

    申请号:CN201811041071.0

    申请日:2018-09-07

    Applicant: 暨南大学

    Inventor: 刘波 彭永幸

    Abstract: 本发明公开了一种基于多种特征的问题相似度计算方法,包括步骤:针对输入的新问题句子,将其与存储的历史问题及对应的答案进行比对计算,计算出新问题与历史问题之间基于字符特征的相似度、基于词语语义特征的相似度、基于句子语义特征的相似度、基于句子隐含主题特征的相似度和基于答案语义特征的相似度;最终相似度为上述5个相似度及其各自对应权重的乘积和,权重利用线性回归方法训练得到。本发明采用多种特征增加了样本属性的多样性,提升了模型的泛化能力。同时利用软余弦距离将TF-IDF与编辑距离、词语语义等信息进行融合,克服了词语之间的语义鸿沟,提高了相似度计算的准确率。

    一种最小函数依赖的增量计算方法

    公开(公告)号:CN104699761A

    公开(公告)日:2015-06-10

    申请号:CN201510072548.1

    申请日:2015-02-11

    Applicant: 暨南大学

    Inventor: 刘波 周健昌

    CPC classification number: G06F17/30595

    Abstract: 本发明公开了一种最小函数依赖的增量计算方法,该方法根据关系表变化前的最小非平凡函数依赖集、增量数据集、变化前的关系表的划分信息集,增量检测原有的最小函数依赖是否成立,最后确定关系表变化后的最小非平凡函数依赖集。该方法按照元组的操作类型(增加、删除或修改),进行相应的最小函数依赖的增量计算。由于在实际应用中,数据库变化后,原数据集中的大多数最小函数依赖都是有效的,本发明提出的方法不需要重新计算新数据集的所有最小函数依赖,仅需要计算原最小函数依赖集的新增及删除的最小函数依赖,因此效率较高,且灵活性强,计算结果准确。

    一种多数据集中重复记录动态检测方法

    公开(公告)号:CN102169491B

    公开(公告)日:2012-11-21

    申请号:CN201110073460.3

    申请日:2011-03-25

    Applicant: 暨南大学

    Inventor: 刘波 潘久辉 张武

    Abstract: 本发明公开了一种动态地、并发地从多个信息源的数据集中检测数据内容完全相同的记录组的方法,本发明的检测方法从多个信息源的数据集中读取每条初始记录或变更记录,依据记录的固有字段由本发明构造的Hash函数和验证码函数计算各记录Hash码和检验码,并动态地创建、修改一组由所有信息源的数据集所共享的桶及其相关信息,快速检测出分布在各个信息源中的重复记录组。本发明具有效率高、正确率高、内存资源利用率高、能够动态进行增量检测的优点。

    基于块索引结构的文档检索方法、装置、介质和设备

    公开(公告)号:CN112199461B

    公开(公告)日:2022-05-31

    申请号:CN202010980661.0

    申请日:2020-09-17

    Applicant: 暨南大学

    Inventor: 刘波 李宇

    Abstract: 本发明公开了一种基于块索引结构的文档检索方法、装置、介质和设备,首先从文档集中提取关键词并扩展关键词;然后以关键词为索引词,根据索引词与包含该索引词的文档之间的相关性分数,采用块索引结构,构建多层次索引表。针对查询语句,从中抽取查询词,并且获取查询词的扩展词;从索引表中获取与查询词和扩展词匹配的所有索引词;利用索引表中预计算的信息,将匹配的查询词及扩展词与文档之间的相关性分数累加,动态锁定相关性累加分数前k名的文档;当满足检索终止条件,即前k名文档不再发生替换变动时,停止索引块的检索遍历,得到按查询相关性分数累加值排名前k的文档结果集。本发明具有文档检索效率高、成本低以及准确性高的优点。

    深网查询接口集成方法、系统、计算设备及存储介质

    公开(公告)号:CN109446440A

    公开(公告)日:2019-03-08

    申请号:CN201811165863.9

    申请日:2018-10-08

    Applicant: 暨南大学

    Inventor: 刘波 蔡美

    Abstract: 本发明公开了一种深网查询接口集成方法、系统、计算设备及存储介质,所述方法包括:计算局部查询接口的所有最大属性簇的频度;将局部查询接口的所有最大属性簇按照频度从高到低进行排序;将已排序的属性簇依次插入全局查询接口中,直至全局查询接口与局部查询接口之间的距离不再减小。本发明适合于面向特定领域的深网查询接口集成,根据一组局部查询接口,可以构建一个全局查询接口,使全局查询接口与局部查询接口之间总体上相异度小。

    一种基于蕴涵规则的数据质量自动检测方法

    公开(公告)号:CN102411600B

    公开(公告)日:2013-05-15

    申请号:CN201110218907.1

    申请日:2011-08-02

    Applicant: 暨南大学

    Inventor: 刘波 许阳阳 赖伟

    Abstract: 本发明公开了一种基于蕴涵规则的数据质量自动检测方法,该方法首先需选择检测对象,定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中;然后从规则库中读取与检测对象有关的、且尚未读取过的、且元组变量列表相同的规则,将它们存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;如果规则库中已不存在与检测对象有关的、且尚未读取过的规则,则输出违背规则库中与检测对象有关的规则的所有元组,提供给用户修复。该方法通用性强,且检测速度快,形式简洁,使用与维护方便,独立性和灵活性强,不依赖于数据库管理系统,适用于检测任何关系型数据库或结构化文件。

Patent Agency Ranking