-
公开(公告)号:CN102662960A
公开(公告)日:2012-09-12
申请号:CN201210059495.6
申请日:2012-03-08
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种在线监督式主题建模及其演变分析的方法。包括如下步骤:1)从新闻媒体网站下载新闻文本,并按一定的时间粒度进行划分;2)对各时间段的新闻文本进行分词处理,根据词频过滤更新词汇表3)提取文本特征,形成单词与文本的关系矩阵,构成在线监督式主题模型的输入;4)建立在线监督式主题模型,对每个时间粒度内的数据集,用在线监督式主题建模方法检测主题,得到单词关于主题的分布矩阵及主题在文本上的分布矩阵;5)用Jensen-Shannon散度对步骤4)中所得的主题进行演变分析并计算各主题的属性,得出各主题的演变过程。本发明充分利用数据本身的时间和类别信息,提高了主题挖掘的精度,并结合类别信息有效地分析了主题的演变过程。
-
公开(公告)号:CN101320375B
公开(公告)日:2010-09-22
申请号:CN200810063010.4
申请日:2008-07-04
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于用户点击行为的数字图书搜索的方法。首先,提取Web日志中的图书阅读记录构建图书之间的关联图,使用该关联图来计算图书的相关性排序;其次,提取日志中的检索阅读记录,利用其中读者对检索结果的隐式反馈对查询词进行聚类;最后,在查询词聚类的基础之上,针对每类查询词,利用读者对检索结果的隐式反馈,综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种信息源,形成最终的图书搜索结果排序。本发明可以获得客观的图书相关性排序和很好的查询词聚类效果;将互联网上丰富的图书评分数据融入到相对封闭和静态的数字图书馆中,有效提高图书搜索质量。
-
公开(公告)号:CN101826102A
公开(公告)日:2010-09-08
申请号:CN201010133153.5
申请日:2010-03-26
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。
-
公开(公告)号:CN119692422A
公开(公告)日:2025-03-25
申请号:CN202411792355.9
申请日:2024-12-06
Applicant: 浙江大学
IPC: G06N3/092 , G06N3/0464 , G06N3/048 , G06N3/0455
Abstract: 本发明公开了一种序列并行的基于模型的强化学习方法。本发明在线性循环神经网络的线性注意力机制的基础上,使用均方根层归一化和门控单元构建可充分并行化的世界模型;同时使用并行扫描算法对策略学习阶段的资格迹估计过程实现时间序列上的并行化。和现有技术相比,本发明结合并行扫描算法,在保持高样本效率的前提下,在世界模型训练和资格迹估计两方面同时提升了基于模型的强化学习的硬件效率。
-
公开(公告)号:CN118673132A
公开(公告)日:2024-09-20
申请号:CN202410593307.0
申请日:2024-05-14
Applicant: 浙江大学
IPC: G06F16/34 , G06F16/35 , G06F40/30 , G06F40/289 , G06F18/22 , G06F18/2321 , G06N5/04
Abstract: 本发明公开了一种基于滑动生成和自一致性的事实一致的文本摘要生成方法和系统,属于自然语言处理技术领域,包括:将整篇文章划分为相互重叠的文本片段,使用大模型为文本片段生成局部摘要;对所有局部摘要中的句子执行词法聚类,同一事件的相关陈述构成一个簇,过滤掉小的句子簇;根据语义对同一事件的陈述进行分类,利用多数投票算法选择句子并整合成事实一致的整体摘要。本发明首次提出一种零样本大模型忠实度增强方式,不需要外部资源和额外训练,结合滑动窗口和自一致性原则,提高了文本摘要的事实一致性,同时保持了文本摘要的信息度和流畅度,并且能够应用于不同的模型以及各种长度和类型的文本。
-
公开(公告)号:CN118014053A
公开(公告)日:2024-05-10
申请号:CN202410176652.4
申请日:2024-02-08
Applicant: 浙江大学
IPC: G06N3/092 , G06N3/09 , G06N3/0442 , G06F18/2321 , G06F18/214
Abstract: 本发明公开了一种结合早期监督学习和后期强化学习的智能体策略模型训练方法,属于多智能体强化学习领域,包括:利用先前收集的轨迹作为上下文,用上下文预测器进行建模以产生下一个动作和观察结果,并在早期训练阶段使用上下文预测器来替代Q值函数或效用函数。此外,本发明采用联合动作采样机制来限制动作空间,并动态选择来自policy网络与来自上下文轨迹预测器的策略来执行rollout过程。通过合理限制动作空间和rollout过程,本发明可以显著加速算法训练过程。本发明的框架显著加速了现有的CTDE和非CTDE的多智能体强化学习方法的训练过程,同时在最终表现上也与它们的原始版本持平或超越原始算法。
-
公开(公告)号:CN116775822A
公开(公告)日:2023-09-19
申请号:CN202310607370.0
申请日:2023-05-26
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/33 , G06F40/106 , G06F40/186 , G06V30/412
Abstract: 本发明公开了一种布局和任务感知的文本提示零样本文档图片问答方法。本发明包括如下步骤:1)根据文档图片包含的内容构造包含布局信息的文档内容提示文本;2)根据具体的任务需求构造任务描述提示文本模板;3)根据任务描述提示文本模板以及内容提示文本和具体的问题生成完整的提示文本,将其输入大语言模型得到最后的问答结果。和现有技术相比,本发明通过人为精心设计提示文本有效利用了指令微调大语言模型强大的能力,实现了对文档图片的零样本问答,并且取得了与预训练微调范式下同类型模型相当的性能。
-
公开(公告)号:CN110427608B
公开(公告)日:2021-06-08
申请号:CN201910549589.3
申请日:2019-06-24
Applicant: 浙江大学
IPC: G06F40/295 , G06F40/30 , G06F40/216 , G06F16/33 , G06F16/951 , G06N3/08
Abstract: 本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。
-
公开(公告)号:CN110377903B
公开(公告)日:2020-08-14
申请号:CN201910549585.5
申请日:2019-06-24
Applicant: 浙江大学
IPC: G06F40/295 , G06N3/04
Abstract: 本发明公开了一种基于神经网络的实体和关系的联合抽取技术。该技术包含如下步骤:1)将句子作为输入,获取每个单词的表示向量,该表示向量由词嵌入表示和字符级别词嵌入表示拼接而成;2)使用膨胀卷积神经网络对每个单词的上下文信息进行编码,为每个单词提取包含上下文信息的特征;3)把实体识别作为序列标注问题,并使用线性链CRF来对实体标记序列联合建模;预测时,使用维特比算法计算概率最大的实体标记序列,实现实体识别;4)从组成实体的单词的特征表示中来获得实体的特征表示,通过对实体两两排列来构造关系候选,使用双仿射变换判断每个关系候选的关系,实现关系抽取。
-
公开(公告)号:CN109710736B
公开(公告)日:2020-08-14
申请号:CN201811566627.8
申请日:2018-12-19
Applicant: 浙江大学
IPC: G06F16/332
Abstract: 本发明公开了一种面向搜索排序的主动众包任务生成方法,属于数据处理方法领域。本发明利用了主动学习,在众包任务生成过程中考虑用户输入的查询词与排序模型的结果,不仅使得生成的众包任务适合当前工人,还提高了任务对模型的针对性,能更高效地提升排序学习模型的训练效率,大大节约了众包的人力与时间成本。
-
-
-
-
-
-
-
-
-