一种基于多任务学习机制的点击率预估方法

    公开(公告)号:CN112860998B

    公开(公告)日:2022-05-10

    申请号:CN202110184280.6

    申请日:2021-02-08

    申请人: 浙江大学

    发明人: 张引 胡荐苛

    摘要: 本发明公开了一种基于多任务学习机制的点击率预估(Click‑Through‑Rate,CTR)方法,旨在改善文本内容推荐系统中针对用户进行个性化推荐的效果。本发明立足于将领域知识融入深度模型来改进用户兴趣挖掘的思想,提出了新颖的混合专家网络来对领域知识进行高解释性表示,并通过任务导向的门控网络建模多任务之间的联系,进一步提高CTR以及其他任务预测的准确性。本发明提出的方法可以直接输入独热编码(One‑Hot)形式的用户特征和候选物品特征,不需要繁琐的人工特征工程,经过深度模型的特征交叉就可以学习到用户深层次的兴趣表示,最后输出0~1范围内的概率值来表示用户对候选物品的感兴趣程度。本发明具备较高的解释性和扩展性,很容易就能应用于具体的推荐场景中。

    一种多特征融合的古今汉语自动翻译方法

    公开(公告)号:CN109684648B

    公开(公告)日:2020-09-01

    申请号:CN201910033155.8

    申请日:2019-01-14

    申请人: 浙江大学

    发明人: 张引 陈琴菲

    IPC分类号: G06F40/58

    摘要: 本发明公开了一种多特征融合的古今汉语自动翻译方法。步骤如下:1)采集文言文及其现代文译文数据、文言文词表和现代汉语单语语料数据。2)数据清洗并使用句子对齐方法构建古今汉语平行语料库。3)使用中文分词工具,对现代文和古文进行分词。4)对古文语料进行主题建模,生成主题‑词分布及词‑主题条件概率分布。5)使用现代汉语单语语料训练得到现代汉语语言模型;使用古今汉语平行语料得到其对齐词典。6)以基于注意力的循环神经网络翻译模型为基础,融合语言模型与对齐词典等统计机器翻译特征,使用古今汉语平行句对及词主题序列训练模型;7)用户输入待翻译文言文,利用6)步训练得到模型获取现代文译文。

    基于多特征融合的BOW模型的中草药植物图片检索方法

    公开(公告)号:CN105808757B

    公开(公告)日:2018-12-25

    申请号:CN201610146005.4

    申请日:2016-03-15

    申请人: 浙江大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于多特征融合的Bag‑of‑Words(BOW)模型的中草药植物图像检索方法。首先,对中草药图片尺寸进行归一化处理;其次,对归一化后的中草药图片提取基于稠密采样的SIFT特征和OpponentSIFT特征;然后,采用k‑means聚类算法将前一步中提取的特征聚类得到视觉字典,其中,聚类中心即为视觉单词;接着,采用局部线性编码对局部特征用视觉词典中的视觉单词进行表达,得到其对应的编码向量;然后,采用最大值池化方法对中草药植物图片局部特征对应的编码向量进行池化处理,得到图片特征;最后,将图片特征输入训练好的SVM分类器得到相应类别,返回对应类别中的图片给用户。

    一种基于LDA和VSM的中草药相似文献的推荐方法

    公开(公告)号:CN103823848B

    公开(公告)日:2017-11-14

    申请号:CN201410046769.7

    申请日:2014-02-11

    申请人: 浙江大学

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本发明可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。

    一种基于深度学习的跨媒体中草药植物图像搜索方法

    公开(公告)号:CN106777185A

    公开(公告)日:2017-05-31

    申请号:CN201611206559.5

    申请日:2016-12-23

    申请人: 浙江大学

    发明人: 张引 胡直峰

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明公开了一种基于深度学习的跨媒体中草药植物图像检索方法。步骤如下:1)通过OCR,文本结构化处理,从《植物分类学》等书籍中抽取植物分类描述文字2)使用中文分词工具,对所有植物分类描述文字进行包括分词和去停用词在内的预处理;3)用word2vec算法根据描述文本生成词向量;4)使用Fisher Vector将描述文本进行编码;5)利用卷积神经网络在图片集上进行训练,使网络结构收敛到最优状态;6)提取卷积神经网络的倒数第二层全连接层输出作为图片特征向量;7)融合文本特征与图片特征;8)使用线性核SVM分类器进行模型训练;9)用户检索时可输入图像、描述植物文本,之后利用4)、6)、7)、8)步得到最终的图片检索结果。

    一种自然图像中任意方向文本行检测方法

    公开(公告)号:CN103136523A

    公开(公告)日:2013-06-05

    申请号:CN201210506072.4

    申请日:2012-11-29

    申请人: 浙江大学

    IPC分类号: G06K9/20 G06K9/62

    摘要: 本发明公开了一种自然图像中任意方向文本行检测方法。它包括以下步骤:(1)使用带约束的最大稳定极端区域检测方法来检测候选的文本区域,然后结合区域大小,绝对距离,相对距离,上下文信息定义区域间的几何相似度,并与颜色相似度结合得到区域对间的合成相似度;(2)采用基于相似度的候选文本行识别方法,找到三个区域作为候选文本行的种子区域,扩展到该行的所有区域;(3)采用基于形态学骨架特征的过滤器去除非文本行,过滤器使用一个稀疏分类器进行过滤,而分类器所需的特征向量取自候选文本行上所有区域的形态学骨架特征。本发明能检测自然图像中任意方向的文本,另外,由于使用区域内在特征构造分类器,因此能达到更好的识别准确率。

    一种基于标准标记与快速检索的交通视频监控系统

    公开(公告)号:CN102665064A

    公开(公告)日:2012-09-12

    申请号:CN201210056022.0

    申请日:2012-03-01

    申请人: 浙江大学

    IPC分类号: H04N7/18 G06F17/30

    摘要: 本发明公开了一种基于标准标记与快速检索的交通视频监控系统,包括交通监控视频捕捉模块和视频图像内容分析模块,还包括获取交通视频关键帧模块、监控扩展数据编码模块和对码流检索模块,基于SVAC标准,对其中监控信息部分的语法和语义进行适当的扩展,以满足监控视频快速检索的需要。提供了一个统一标准的接口来实现压缩监控视频数据的标记和快速检索,并可以根据业务需要对监控信息进行适当的伸缩和裁剪,来满足传输等功能的需要,同时制定出一套针对交通对象和事件的编码方案,最终利用SVAC标准来实现一种准确率高、简单有效和统一快速的交通对象和交通事件的标记和快速检索方法。

    一种自监督的图像翻译方法和系统

    公开(公告)号:CN113569917B

    公开(公告)日:2023-12-12

    申请号:CN202110742558.7

    申请日:2021-07-01

    申请人: 浙江大学

    发明人: 张引 董建洲

    摘要: 本发明公开了一种自监督的图像翻译方法和系统,本发明的主体结构为一个生成对抗网络,使用自监督训练的方式对该网络进行训练。在训练过程中,会先将训练用的图像进行特定操作,并利用分类器来预测该图像经过哪种特定操作,从而完成自监督的过程。此外,本发明还同时将该图像输入判别器进行生成‑判别的过程。为了使网络能够学习到细微部分的内容,本发明还将图像分割成多块,分别进行特定操作,这时分类会对每个块上进行的操作进行预测,这有助于模型学习到图像细微部分的内容。

    一种从方剂信息中挖掘药对与功效关系的方法

    公开(公告)号:CN111180045B

    公开(公告)日:2023-05-12

    申请号:CN201911165949.6

    申请日:2019-11-25

    申请人: 浙江大学

    发明人: 张引 白宇

    摘要: 本发明公开了一种从方剂信息中挖掘药对与功效关系的方法。步骤如下:1)采集权威的方剂信息数据,数据包含方剂功效主治信息与中药组成信息。2)数据清洗并结构化,方便后续模型训练与信息挖掘。3)搭建数据挖掘模型,对样本进行拟合,学习可解释性强的参数。4)获取模型学习到的可解释性参数,进行后续过滤处理,剔除噪音,保留有用药对信息,挖掘出药对与功效的关系。本发明采用启发策略进行过滤,根据功效预测准确率衡量功效与药对之间的关联程度,能够剔除大部分无效关系。

    一种自监督的图像翻译方法和系统

    公开(公告)号:CN113569917A

    公开(公告)日:2021-10-29

    申请号:CN202110742558.7

    申请日:2021-07-01

    申请人: 浙江大学

    发明人: 张引 董建洲

    摘要: 本发明公开了一种自监督的图像翻译方法和系统,本发明的主体结构为一个生成对抗网络,使用自监督训练的方式对该网络进行训练。在训练过程中,会先将训练用的图像进行特定操作,并利用分类器来预测该图像经过哪种特定操作,从而完成自监督的过程。此外,本发明还同时将该图像输入判别器进行生成‑判别的过程。为了使网络能够学习到细微部分的内容,本发明还将图像分割成多块,分别进行特定操作,这时分类会对每个块上进行的操作进行预测,这有助于模型学习到图像细微部分的内容。