一种科技文本挑选方法及装置

    公开(公告)号:CN106294330A

    公开(公告)日:2017-01-04

    申请号:CN201510233967.9

    申请日:2015-05-11

    Applicant: 清华大学

    Abstract: 本发明提出了一种科技文本挑选方法及装置,属于计算机文本分析挖掘领域。本发明实施例装置及方法包括:选取的特征样本集;对样本集中文本进行特征评分的计算模块,包括基于文本的客观评分模块、文本的模糊评分模块以及文本与样本集间关联度评分模块,其中基于文本的模糊评分模块包括文本专业词汇模糊评分、文本关键句式判别与评分以及文本语言客观度评分;通过建立以各项评分与文本是否被标注为可选的训练集,训练得到的神经网络模型筛选的模型;对于待挑选文本,挑选方法为,文本先进行各项特征评分,再经已训练好的神经网络模型筛选。本发明还可用于其他各种具有一定特征的专业文档的评价挑选或评价挑选系统的建立。

    一种网页推荐方法和装置
    42.
    发明授权

    公开(公告)号:CN102054004B

    公开(公告)日:2015-05-06

    申请号:CN200910236869.5

    申请日:2009-11-04

    Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。

    检测欺诈电话的方法
    43.
    发明公开

    公开(公告)号:CN103412940A

    公开(公告)日:2013-11-27

    申请号:CN201310368700.1

    申请日:2013-08-22

    Applicant: 清华大学

    Abstract: 本发明提出一种检测欺诈电话的方法,包括以下步骤:获取搜索引擎日志;并从中提取预设时间段内的包含预设关键字段的查询集合,对该查询集合进行筛选,并将筛选的查询集合按照查询次数进行排序;将排序后的查询集合提交至搜索引擎进行搜索,对搜索结果进行分析,以获取种子官方电话集合及种子欺诈电话集合;根据搜索结果建立电话共现关系图;根据种子官方电话集合、种子欺诈电话集合、及电话共现关系图检测搜索结果中是否存在欺诈电话。本发明的实施例能够及时高效地检测欺诈电话,提升搜索引擎的服务性能,减少用户的损失,另外,该方法涉及的算法复杂度低,易于实现,具有较好的推广性和适应性,且检测效果客观、全面、可靠。

    基于块对角矩阵的推荐方法和装置

    公开(公告)号:CN103336831A

    公开(公告)日:2013-10-02

    申请号:CN201310286998.1

    申请日:2013-07-09

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于块对角矩阵的推荐方法和系统,具体公开了一种基于块对角矩阵的推荐方法,其包括:步骤S1:对用户行为日志进行预处理;步骤S2:将预处理的结果转换为迭代双边块对角矩阵;步骤S3:由所述迭代双边块对角矩阵构建对角块矩阵;以及步骤S4:利用所述对角块矩阵进行评分预测。

    基于锚文本分析的领域术语自动生成方法

    公开(公告)号:CN102169496A

    公开(公告)日:2011-08-31

    申请号:CN201110091312.4

    申请日:2011-04-12

    Abstract: 本发明提出一种基于锚文本分析的领域术语自动生成方法,包括以下步骤:采集用户的浏览日志;对所述浏览日志进行处理以获得用户点击的锚文本和对应的点击结果地址;根据所述点击结果地址对所述锚文本进行处理以获得候选多字集合;基于新词发现算法对所述候选多字集合中的多字进行筛选以去除不能独立成词的多字;和根据相对频率算法对所述新词发现算法筛选后的候选多字集合进行进一步筛选以输出领域术语生成结果。本发明能够自动从锚文本中发现和提取领域术语,并且模型结构和参数简单,算法复杂度低,在实验测试数据上取得了较好的性能和领域术语发现效果。

    一种网页推荐方法和装置
    46.
    发明公开

    公开(公告)号:CN102054004A

    公开(公告)日:2011-05-11

    申请号:CN200910236869.5

    申请日:2009-11-04

    Abstract: 本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括:获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。

    一种新闻网页定位方法

    公开(公告)号:CN101329687B

    公开(公告)日:2010-06-23

    申请号:CN200810117516.9

    申请日:2008-07-31

    Abstract: 本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。

    一种基于用户行为信息的搜索引擎检索结果重排序方法

    公开(公告)号:CN100507920C

    公开(公告)日:2009-07-01

    申请号:CN200710099594.6

    申请日:2007-05-25

    Applicant: 清华大学

    Abstract: 本发明属于互联网信息处理领域,其特征在于:它根据单个或多个搜索引擎日志,首先利用查询对应的用户数信息,从中筛选出用户关注的常用查询集合;随后计算常用查询集中各查询对应的用户点击页面对应的用户点击率,若利用多搜索引擎日志信息,则对用户点击率进行合并;根据用户点击率对用户点击页面进行有效筛选,并把相关查询和对应的结果页面地址保存到相关数据库;最后,当用户提交查询需求时,把从用户信息得到的结果和搜索引擎搜索得到的结果进行有效融合,重新排序后返回给用户。该方法具有计算机自动完成,实时有效客观地提交搜索引擎性能的优点。

    中文汉语到盲文的自动转换方法

    公开(公告)号:CN1323005A

    公开(公告)日:2001-11-21

    申请号:CN01118675.5

    申请日:2001-06-08

    Applicant: 清华大学

    Abstract: 本发明属于计算机文字处理技术领域,其特点是首先根据汉语盲文分词连写规则对汉字文本作盲文分词连写,然后将词转换成盲文;使用该方法,三字以上的词很少有多音现象。具有特殊符号输入转换。可在文档中输入、转换数学符号。同时可以根据需要加入其它特殊字符库,转换后的盲文可以进行修改保存,并且能够在Windows下直接驱动盲文打印机进行盲文打印。转换正确率高,在98%以上。

    盲人用的汉语智能计算机系统

    公开(公告)号:CN1323003A

    公开(公告)日:2001-11-21

    申请号:CN01129619.4

    申请日:2001-06-22

    Applicant: 清华大学

    Abstract: 本发明属于模式识别和人工智能技术领域。主要由能够上网的个人计算机主机,与该主机各接口相连的麦克风、音箱或耳机、扫描仪、盲人用点显器、打印机组成的硬件及设置在所说主机及相关硬件中的软件模块构成。本发明使盲人在使用计算机时充分发挥听、说、摸能力,有选择性地更自然、更方便地操作计算机。使得交互过程更加人性化、智能化。给盲人文档处理,与正常人交流,盲校教师教学提供了工具。

Patent Agency Ranking