-
公开(公告)号:CN105956158B
公开(公告)日:2019-08-09
申请号:CN201610324541.9
申请日:2016-05-17
Applicant: 清华大学
IPC: G06F16/9535 , G06F16/953 , G06F16/36
Abstract: 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
-
公开(公告)号:CN107220307A
公开(公告)日:2017-09-29
申请号:CN201710326803.X
申请日:2017-05-10
Applicant: 清华大学
Abstract: 本发明提出一种网页搜索方法和装置,其中,网页搜索方法包括:根据关键字进行搜索,得到匹配网页及其排序之后,由用户选取匹配网页中的第一网页进行标注,进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度,并据此对第二网页进行重新排序。这种方法,一方面充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,另一方面,用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注,便可以提升与搜索意图相关的第二网页的排序,降低了用户获取目标信息的时间,提高了用户的体验度。
-
公开(公告)号:CN107220307B
公开(公告)日:2020-09-25
申请号:CN201710326803.X
申请日:2017-05-10
Applicant: 清华大学
IPC: G06F16/951 , G06F16/9532 , G06F40/289 , G06F40/12
Abstract: 本发明提出一种网页搜索方法和装置,其中,网页搜索方法包括:根据关键字进行搜索,得到匹配网页及其排序之后,由用户选取匹配网页中的第一网页进行标注,进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度,并据此对第二网页进行重新排序。这种方法,一方面充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,另一方面,用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注,便可以提升与搜索意图相关的第二网页的排序,降低了用户获取目标信息的时间,提高了用户的体验度。
-
公开(公告)号:CN106445914B
公开(公告)日:2020-06-19
申请号:CN201610824487.4
申请日:2016-09-13
Applicant: 清华大学
IPC: G06F40/289 , G06F16/35
Abstract: 本发明公开了一种微博情感分类器的构建方法及构建装置,其中,方法包括以下步骤:获取多条微博数据;对微博文本进行分词得到词语集合;根据海量无标注的微博文本数据得到词语‑词语情感关联关系和词语‑情感关联关系;对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;将词语‑词语情感关联关系、词语‑情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。该方法可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
-
公开(公告)号:CN109815496A
公开(公告)日:2019-05-28
申请号:CN201910059159.3
申请日:2019-01-22
Applicant: 清华大学
Abstract: 本发明公开了一种基于容量自适应收缩机制载体生成式文本隐写方法及装置,其中,方法包括以下步骤:步骤S1,对目标文本进行建模,并利用循环神经网络模型从目标文本中训练得到统计语言模型,以根据统计语言模型统计目标文本中每个词在每个时刻的条件概率分布;步骤S2,通过对条件概率分布进行基于容量自适应收缩的可变长度编码,以隐藏每个词的秘密比特流;步骤S3,根据每个词的隐藏秘密比特流生成目标文本的隐写文本。该方法基于载体生成的隐写术,它可以根据需要隐藏的秘密比特流,利用容量自适应收缩机制,自动生成高质量的隐写文本。
-
公开(公告)号:CN110083785A
公开(公告)日:2019-08-02
申请号:CN201910354376.5
申请日:2019-04-29
Applicant: 清华大学
IPC: G06F16/955 , G06F16/35 , G06F16/36 , G06N3/04
Abstract: 本发明公开了一种基于用户搜索记录的性别年龄判别方法及装置,其中,方法包括:对搜索记录中的词语进行建模,搜索得到每个词语的语义表示向量;对搜索记录进行建模,通过词语级的卷积神经网络捕获词语间上下文依赖关系,并选取满足第一预设条件的词语,以构建搜索记录的上下文表示向量;基于搜索记录对用户建模,通过记录级的卷积神经网络捕获搜索记录间的上下文依赖关系,并选取满足第二预设条件的搜索记录,以构建搜索用户的表示向量;基于用户表示向量的用户分类,通过全连接层对用户向量进行解码,并使用softmax函数对分类概率归一化。该方法有效地提升了用户性别年龄预测的性能,同时有广大的用户覆盖量。
-
公开(公告)号:CN106445914A
公开(公告)日:2017-02-22
申请号:CN201610824487.4
申请日:2016-09-13
Applicant: 清华大学
Abstract: 本发明公开了一种微博情感分类器的构建方法及构建装置,其中,方法包括以下步骤:获取多条微博数据;对微博文本进行分词得到词语集合;根据海量无标注的微博文本数据得到词语-词语情感关联关系和词语-情感关联关系;对预设数量的微博文本数据进行人工标注,以赋予情感标签得到有标注的微博情感数据集;将词语-词语情感关联关系、词语-情感关联关系和有标注的微博情感数据集融合得到多源异构情感信息,并建立数学模型,以得到微博情感分类器。该方法可以通过融合多源异构情感信息得到微博情感分类器,从而对微博消息所表达的情感倾向性进行分类,提高了分类器的鲁棒性和准确率,成本低,简单易实现。
-
公开(公告)号:CN105956158A
公开(公告)日:2016-09-21
申请号:CN201610324541.9
申请日:2016-05-17
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/9535
Abstract: 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
-
公开(公告)号:CN105677894A
公开(公告)日:2016-06-15
申请号:CN201610074912.2
申请日:2016-02-02
Applicant: 清华大学
IPC: G06F17/30
CPC classification number: G06F16/9535 , G06F16/951
Abstract: 本发明公开了一种基于网络事件模型的新闻事件检测方法和装置,其中,该方法包括以下步骤:实时获取L个媒体新闻门户网站发布的M个新闻的网页文本信息;对第i个新闻的网页文本信息进行分析,提取第i个新闻的第一特征信息;根据第i个新闻的第一特征信息计算第i个新闻与N个预先建立的事件簇的N个相似度值;以及根据N个相似度值检测第i个新闻是否属于N个预先建立的事件簇。因此,本发明实施例提供的基于网络事件模型的新闻事件检测方法和装置,能够实时得到新闻分析结果,在保证实时、准确的分析处理能力的同时还提高了检测新闻的效率,从而提升了网络舆情分析处理的效果。
-
-
-
-
-
-
-
-