-
公开(公告)号:CN115630141B
公开(公告)日:2023-04-25
申请号:CN202211413270.6
申请日:2022-11-11
Applicant: 杭州电子科技大学
IPC: G06F16/33 , G06F16/332 , G06F16/338 , G06F16/31 , G06F16/35 , G06F16/36 , G06F40/289 , G06F40/30 , G06F18/22 , G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于社区查询和高维向量检索的科技专家检索方法,该方法通过文档相似度关系对生成训练样本,将文本信息嵌入文档语义向量表示与专家论文关系异构图中。通过专家贡献度池化,提取专家在不同领域的多篇学术文档特征,解决了直接聚合不同方向的学术文档向量在向量空间分布可能存在较大差异而造成特征丢失的问题。又利用专家紧密社区信息和专家多领域的向量表征关系进一步生成领域聚簇四元组训练样本,优化专家领域聚簇向量的表示,最终实现学术文档文本信息、语义信息以及专家社区信息的紧密结合,提高了返回结果的精度。同时利用高维向量索引快速匹配以及专家重排算法,从而实现高效、精准的专家查询。
-
公开(公告)号:CN109992787B
公开(公告)日:2023-04-07
申请号:CN201910279906.4
申请日:2019-04-09
Applicant: 杭州电子科技大学
IPC: G06F40/289 , G06F40/211
Abstract: 本发明公开了一种基于CBOW模型和依存句法关系的词向量表示方法。本发明首先将原始语料进行裁剪分句获得语料集合C1;针对语料集合C1进行分词及词性标注,获得语料集合C2,以及带有依存句法关系的语料集合C3;然后将语料集合C2作为CBOW模型的输入,在词向量训练过程中,通过判断中心词的词性是否为动词或名词或副词,若是则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词作为中心词的上下文,修改模型训练时的概率模型,不是则采用原有的随机窗口构造上下文。本发明综合考虑了词的词性以及依存句法信息,使得中心词具有句法上下文信息,以此来改进COBW模型的训练,从而提高词向量的表示。
-
公开(公告)号:CN115757892A
公开(公告)日:2023-03-07
申请号:CN202211010772.4
申请日:2022-08-23
Applicant: 杭州电子科技大学
IPC: G06F16/903 , G06F17/16 , G06F17/18 , G06F18/22
Abstract: 本发明涉及一种面向公共安全信息网络的可疑组织骨干成员搜索方法,先根据线索可疑人员群获取潜在可疑人员随机游走子图,然后根据边的支持度计算潜在可疑人员之间的随机游走转移概率,当线索可疑人员群中的每个线索可疑人员游走达到稳态产生一个稳态概率向量后,将所有稳态概率向量组合成矩阵,转置后分割生成子图中每个潜在可疑人员对应的特征向量。对所有的特征向量基于向量均值和向量间相似度的加权排序,选取Top‑k个向量对应的潜在可疑人员作为可疑组织骨干成员输出。本发明的方法根据线索可疑人员群生成潜在可疑人员随机游走子图,在子图范围内随机游走计算得到可疑组织骨干成员的近似解,目的是为了在保证较高查询精确率的情况下大大提升查询效率。
-
公开(公告)号:CN107229738B
公开(公告)日:2020-04-03
申请号:CN201710461109.9
申请日:2017-06-18
Applicant: 杭州电子科技大学
IPC: G06F16/335 , G06F16/33
Abstract: 本发明公开了一种基于文档评分模型和相关度的学术论文搜索排序方法。该方法包含以下步骤:对论文库中的数据进行预处理,得到论文基本信息,包括发表年份、发表期刊质量、引用次数,同时记录论文被点击查看的次数,作为反馈值;对论文以时间、质量和搜索反馈三个因素建立论文文档评分模型;结合搜索词与论文文档的相关度以及论文文档评分模型,计算得到搜索词相关的论文文档集合中每篇论文文档的综合评分;根据该综合评分对搜索结果进行排序并返回。本发明在搜索过程中综合考虑了多方面因素,对论文本身建立文档评分模型,克服了搜索引擎对于多搜索目的处理上的不足,使得论文搜索的准确率和搜索体验有了很大的改善。
-
公开(公告)号:CN109992787A
公开(公告)日:2019-07-09
申请号:CN201910279906.4
申请日:2019-04-09
Applicant: 杭州电子科技大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于CBOW模型和依存句法关系的词向量表示方法。本发明首先将原始语料进行裁剪分句获得语料集合C1;针对语料集合C1进行分词及词性标注,获得语料集合C2,以及带有依存句法关系的语料集合C3;然后将语料集合C2作为CBOW模型的输入,在词向量训练过程中,通过判断中心词的词性是否为动词或名词或副词,若是则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词作为中心词的上下文,修改模型训练时的概率模型,不是则采用原有的随机窗口构造上下文。本发明综合考虑了词的词性以及依存句法信息,使得中心词具有句法上下文信息,以此来改进COBW模型的训练,从而提高词向量的表示。
-
公开(公告)号:CN107480936A
公开(公告)日:2017-12-15
申请号:CN201710560900.5
申请日:2017-07-11
Applicant: 杭州电子科技大学
CPC classification number: G06Q10/105 , G06Q10/06393
Abstract: 本发明公开了一种基于科研成果数据的人才能力刻画方法,属于数据挖掘领域。本发明具体包括:基于人才所发表论文的质量、发表时间、作者排序、被引用情况信息进行计算得到所有人才的论文能力;基于申请专利的受理状态、申请时间、发明人排序信息计算得到所有人才的专利能力;基于完成项目的类型等级、项目经费、完成时间、项目人员排序信息计算得到所有人才的项目能力;基于近年成果获得情况计算得到所有人才的活跃度;基于项目和专利实施情况计算得到所有人才的实践度;针对上述五个方面的计算结果进行归一化并用雷达图可视化表示。本发明适用于根据科研成果数据库实现人才科研能力画像的构建和可视化,有助于快速直观地了解人才的科研能力概况。
-
公开(公告)号:CN107229738A
公开(公告)日:2017-10-03
申请号:CN201710461109.9
申请日:2017-06-18
Applicant: 杭州电子科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于文档评分模型和相关度的学术论文搜索排序方法。该方法包含以下步骤:对论文库中的数据进行预处理,得到论文基本信息,包括发表年份、发表期刊质量、引用次数,同时记录论文被点击查看的次数,作为反馈值;对论文以时间、质量和搜索反馈三个因素建立论文文档评分模型;结合搜索词与论文文档的相关度以及论文文档评分模型,计算得到搜索词相关的论文文档集合中每篇论文文档的综合评分;根据该综合评分对搜索结果进行排序并返回。本发明在搜索过程中综合考虑了多方面因素,对论文本身建立文档评分模型,克服了搜索引擎对于多搜索目的处理上的不足,使得论文搜索的准确率和搜索体验有了很大的改善。
-
公开(公告)号:CN109992786B
公开(公告)日:2022-11-25
申请号:CN201910279900.7
申请日:2019-04-09
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种语义敏感的RDF知识图谱近似查询方法,该方法包括以下步骤:将类型相同的RDF知识图谱实体归为一类作为划入领域知识子图,并将其作为根节点,通过根节点向外遍历实体,根据实体与根节点周围的谓词的分布计算混合实体相似度,同时选定合适的阈值,将混合实体相似度大于阈值的划入子图;利用TransE方法训练各个子图,获得子图谓词之间的语义相似度;将谓词相似度作为RDF知识图谱实体之间边的权重,并通过语义敏感的路径探查方法进行Top‑K近似查询,获取语义近似的路径和实体结果。本发明利用子图划分,克服了大规模知识图谱语义相似度时间复杂度高的问题,利用语义敏感的路径探查方法加快查询的收敛速度。
-
公开(公告)号:CN108959613B
公开(公告)日:2021-09-03
申请号:CN201810782472.5
申请日:2018-07-17
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种面向RDF知识图谱的语义近似查询方法。本发明中的离线阶段:首先,考虑RDF知识图谱实体与谓词具有的语义局部性特征,对RDF知识图谱划分,并对划分后的知识图谱进行可训练文本语料的生成;其次,利用文本嵌入模型对上述文本语料进行上下文敏感的语义学习,获取实体与谓词的语义向量。在线阶段:首先,针对用户提交的SPARQL查询进行语法分析,并对其中的谓词进行语义扩展;其次,从给定实体出发进行基于谓词语义相似度的近似查询,获取语义近似查询结果。本发明利用语义局部性特征对RDF知识图谱进行上下文敏感的语义学习,进而支持对RDF知识图谱的模糊查询应用,实时返回满足用户查询意图的近似查询结果。
-
公开(公告)号:CN113111149A
公开(公告)日:2021-07-13
申请号:CN202110367405.9
申请日:2021-04-06
Applicant: 杭州电子科技大学
Abstract: 本发明公开一种基于线性回归的查询执行代价预测方法。本发明针对知识图谱近似聚集查询方法的执行代价预测,通过对知识图谱近似聚集查询方法各个模块的分析,分别获取误差率e下各模块执行代价的样本数据作为训练数据,进而将上述样本数据进行线性回归的离线训练,最终通过性能指标度量得到关于误差率e的执行代价模型,并利用该模型完成知识图谱近似聚集查询的代价预测,预测方法具有较强准确度,以支持知识图谱近似聚集复杂查询。
-
-
-
-
-
-
-
-
-