-
公开(公告)号:CN112860998B
公开(公告)日:2022-05-10
申请号:CN202110184280.6
申请日:2021-02-08
Applicant: 浙江大学
IPC: G06F16/9535 , G06F16/2458 , G06F16/332 , G06Q50/00 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多任务学习机制的点击率预估(Click‑Through‑Rate,CTR)方法,旨在改善文本内容推荐系统中针对用户进行个性化推荐的效果。本发明立足于将领域知识融入深度模型来改进用户兴趣挖掘的思想,提出了新颖的混合专家网络来对领域知识进行高解释性表示,并通过任务导向的门控网络建模多任务之间的联系,进一步提高CTR以及其他任务预测的准确性。本发明提出的方法可以直接输入独热编码(One‑Hot)形式的用户特征和候选物品特征,不需要繁琐的人工特征工程,经过深度模型的特征交叉就可以学习到用户深层次的兴趣表示,最后输出0~1范围内的概率值来表示用户对候选物品的感兴趣程度。本发明具备较高的解释性和扩展性,很容易就能应用于具体的推荐场景中。
-
公开(公告)号:CN109684648B
公开(公告)日:2020-09-01
申请号:CN201910033155.8
申请日:2019-01-14
Applicant: 浙江大学
IPC: G06F40/58
Abstract: 本发明公开了一种多特征融合的古今汉语自动翻译方法。步骤如下:1)采集文言文及其现代文译文数据、文言文词表和现代汉语单语语料数据。2)数据清洗并使用句子对齐方法构建古今汉语平行语料库。3)使用中文分词工具,对现代文和古文进行分词。4)对古文语料进行主题建模,生成主题‑词分布及词‑主题条件概率分布。5)使用现代汉语单语语料训练得到现代汉语语言模型;使用古今汉语平行语料得到其对齐词典。6)以基于注意力的循环神经网络翻译模型为基础,融合语言模型与对齐词典等统计机器翻译特征,使用古今汉语平行句对及词主题序列训练模型;7)用户输入待翻译文言文,利用6)步训练得到模型获取现代文译文。
-
公开(公告)号:CN105808757B
公开(公告)日:2018-12-25
申请号:CN201610146005.4
申请日:2016-03-15
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于多特征融合的Bag‑of‑Words(BOW)模型的中草药植物图像检索方法。首先,对中草药图片尺寸进行归一化处理;其次,对归一化后的中草药图片提取基于稠密采样的SIFT特征和OpponentSIFT特征;然后,采用k‑means聚类算法将前一步中提取的特征聚类得到视觉字典,其中,聚类中心即为视觉单词;接着,采用局部线性编码对局部特征用视觉词典中的视觉单词进行表达,得到其对应的编码向量;然后,采用最大值池化方法对中草药植物图片局部特征对应的编码向量进行池化处理,得到图片特征;最后,将图片特征输入训练好的SVM分类器得到相应类别,返回对应类别中的图片给用户。
-
公开(公告)号:CN103823848B
公开(公告)日:2017-11-14
申请号:CN201410046769.7
申请日:2014-02-11
Applicant: 浙江大学
Abstract: 本发明公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本发明可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。
-
公开(公告)号:CN106777185A
公开(公告)日:2017-05-31
申请号:CN201611206559.5
申请日:2016-12-23
Applicant: 浙江大学
Abstract: 本发明公开了一种基于深度学习的跨媒体中草药植物图像检索方法。步骤如下:1)通过OCR,文本结构化处理,从《植物分类学》等书籍中抽取植物分类描述文字2)使用中文分词工具,对所有植物分类描述文字进行包括分词和去停用词在内的预处理;3)用word2vec算法根据描述文本生成词向量;4)使用Fisher Vector将描述文本进行编码;5)利用卷积神经网络在图片集上进行训练,使网络结构收敛到最优状态;6)提取卷积神经网络的倒数第二层全连接层输出作为图片特征向量;7)融合文本特征与图片特征;8)使用线性核SVM分类器进行模型训练;9)用户检索时可输入图像、描述植物文本,之后利用4)、6)、7)、8)步得到最终的图片检索结果。
-
公开(公告)号:CN103136523A
公开(公告)日:2013-06-05
申请号:CN201210506072.4
申请日:2012-11-29
Applicant: 浙江大学
Abstract: 本发明公开了一种自然图像中任意方向文本行检测方法。它包括以下步骤:(1)使用带约束的最大稳定极端区域检测方法来检测候选的文本区域,然后结合区域大小,绝对距离,相对距离,上下文信息定义区域间的几何相似度,并与颜色相似度结合得到区域对间的合成相似度;(2)采用基于相似度的候选文本行识别方法,找到三个区域作为候选文本行的种子区域,扩展到该行的所有区域;(3)采用基于形态学骨架特征的过滤器去除非文本行,过滤器使用一个稀疏分类器进行过滤,而分类器所需的特征向量取自候选文本行上所有区域的形态学骨架特征。本发明能检测自然图像中任意方向的文本,另外,由于使用区域内在特征构造分类器,因此能达到更好的识别准确率。
-
公开(公告)号:CN102665064A
公开(公告)日:2012-09-12
申请号:CN201210056022.0
申请日:2012-03-01
Applicant: 浙江大学
Abstract: 本发明公开了一种基于标准标记与快速检索的交通视频监控系统,包括交通监控视频捕捉模块和视频图像内容分析模块,还包括获取交通视频关键帧模块、监控扩展数据编码模块和对码流检索模块,基于SVAC标准,对其中监控信息部分的语法和语义进行适当的扩展,以满足监控视频快速检索的需要。提供了一个统一标准的接口来实现压缩监控视频数据的标记和快速检索,并可以根据业务需要对监控信息进行适当的伸缩和裁剪,来满足传输等功能的需要,同时制定出一套针对交通对象和事件的编码方案,最终利用SVAC标准来实现一种准确率高、简单有效和统一快速的交通对象和交通事件的标记和快速检索方法。
-
公开(公告)号:CN117453881A
公开(公告)日:2024-01-26
申请号:CN202311447327.9
申请日:2023-11-02
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/289 , G06F40/284 , G16H70/40
Abstract: 本发明公开了一种基于生成式模型的中医药教材问答题生成方法及装置,首先对教材习题集中源数据进行数据预处理构建习题数据集,将《中国中医药学主题词表》中源数据结构化处理后获取中医药主题词表。然后使用提示学习方法,根据中医药主题词表获取提示,与习题数据构建为模型训练样本,训练得到习题生成模型。之后计算原始文本各段落中医学文本丰富度,选取丰富度较高段落作为生成习题来源。并选取段落进行分词和过滤计算词语关键度,选取关键词作为答案文本。将选取段落和答案文本输入模型获取生成题目,与答案组成问答习题。本发明提出了一种适用于专业领域计算段落文本信息丰富度的方法,有助于选取出高质量的段落从而提升生成习题的质量。
-
公开(公告)号:CN116882393A
公开(公告)日:2023-10-13
申请号:CN202310255049.0
申请日:2023-03-16
Applicant: 浙江大学
IPC: G06F40/284 , G06F40/295 , G06F40/211 , G06F16/332
Abstract: 本发明公开了一种融合多信息的问题生成方法及装置,首先对段落上下文和答案所在句单独编码,并基于门控注意力有效融合段落上下文和答案所在句的信息,生成与上下文和答案更相关的问题。本发明针对命名实体识别任务和词性标签识别任务分别训练识别网络,得到语言学特征信息的表示并应用到编码器中,帮助问题生成模型更有效地利用语言学特征信息。本发明方法通过在预训练语言模型中结合答案实体类别信息实现问题类型预测,并将预测的问题类型信息应用到解码阶段,让生成问题的问题类型更准确。本发明方法缓解了现有方法生成的问题与给定的上下文和答案相关性不高的情况,更加有效地利用上下文中的关键信息以及深度联系,从而更好地生成问题。
-
公开(公告)号:CN113298075B
公开(公告)日:2022-08-02
申请号:CN202110623309.6
申请日:2021-06-04
Applicant: 浙江大学
Abstract: 本发明公开了一种基于注意力机制的启发式图像尺度归一化算法。本方法首先使用一个具有大量数据的数据集训练出一个带有注意力机制的分类网络,该网络能够同时输出注意力特征图以及图像的分类结果。该网络在训练过程中使用分类结果来进行训练。利用注意力特征图具有量化图像中像素的重要程度的能力,本方法使用一个滑动窗口在注意力特征图上进行滑动。当滑动窗口内的值取得最大值时,该滑动窗口对应的位置即为原始图像的待裁剪位置。本发明可以通过这一方法将图像转变到指定的尺寸而不发生形变。当图像需要裁剪时,该方法会自动选择合适的区域进行裁剪。
-
-
-
-
-
-
-
-
-