Biterm主题模型的采样加速方法

    公开(公告)号:CN106776579B

    公开(公告)日:2019-05-31

    申请号:CN201710039835.1

    申请日:2017-01-19

    Applicant: 清华大学

    Abstract: 本发明提出一种Biterm主题模型的采样加速方法,包括:为每个词语创建alias table,选取一个Biterm主题模型;从corpus proposal中,为Biterm采样一个新的主题,计接受概率;判断该接受概率是否大于r;如果是,则更新Biterm,否则,不更新;从word proposal中,为Biterm主题模型采样另一个新的主题,计算接受概率;判断该接受概率是否大于r;如果是,则更新Biterm主题模型,否则,不更新。本发明能够优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度,并且不影响最终的主题聚类质量,不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间。

    基于LDA主题模型的微博用户兴趣的挖掘方法及系统

    公开(公告)号:CN103970863B

    公开(公告)日:2017-12-19

    申请号:CN201410193287.4

    申请日:2014-05-08

    Applicant: 清华大学

    Inventor: 徐华 黄笑秋 王玮

    Abstract: 本发明公开了一种基于LDA主题模型的微博用户兴趣的挖掘方法,包括以下步骤:从微博中采集用户关系信息和用户标签信息;将用户关系信息集成至LDA主题模型中;根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以将多个种子词集成至LDA主题模型中,以利用LDA主题模型对用户的兴趣进行挖掘。本发明实施例的挖掘方法,通过采集用户关系信息和用户标签信息,从而根据用户关系信息和用户标签信息深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户标签的对应关系,找出用户在不同兴趣领域的分布。本发明还公开了一种基于LDA主题模型的微博用户兴趣的挖掘系统。

    面向短文本的单主题挖掘方法及系统

    公开(公告)号:CN107239509A

    公开(公告)日:2017-10-10

    申请号:CN201710339996.2

    申请日:2017-05-15

    Applicant: 清华大学

    Abstract: 本发明公开了一种面向短文本的单主题挖掘方法及系统,其中,方法包括:采集多条短文本;对多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;获每条短文本潜在的单个主题。该挖掘方法可以能对短文本进行主题自动建模,并且限制每条短文本只有一个主题,从而获取短文本潜在的单个主题,提高挖掘主题效率,并且提高挖掘的准确性,提升用户体验。

    Biterm主题模型的采样加速方法

    公开(公告)号:CN106776579A

    公开(公告)日:2017-05-31

    申请号:CN201710039835.1

    申请日:2017-01-19

    Applicant: 清华大学

    CPC classification number: G06F17/2755 G06F17/2705

    Abstract: 本发明提出一种Biterm主题模型的采样加速方法,包括:为每个词语创建alias table,选取一个Biterm主题模型;从corpus proposal中,为Biterm采样一个新的主题,计接受概率;判断该接受概率是否大于r;如果是,则更新Biterm,否则,不更新;从word proposal中,为Biterm主题模型采样另一个新的主题,计算接受概率;判断该接受概率是否大于r;如果是,则更新Biterm主题模型,否则,不更新。本发明能够优化BTM的采样时间复杂度,大幅度提高BTM的收敛速度,并且不影响最终的主题聚类质量,不仅可以优化短文主题挖掘的时间,同时也可以优化长文本主题挖掘的时间。

    基于主题模型的自展式特征选择方法及系统

    公开(公告)号:CN106021413A

    公开(公告)日:2016-10-12

    申请号:CN201610318849.2

    申请日:2016-05-13

    Applicant: 清华大学

    CPC classification number: G06F16/2465 G06F16/9535

    Abstract: 本发明提出一种基于主题模型的自展式特征选择方法及系统,该方法包括以下步骤:获取原始评论数据;选取主题模型,并根据主题模型对原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据显式特征词和观点词生成语义关联规则;根据语义关联规则进行显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。本发明的方法能有效地抽取相关特征,摒弃无关特征和观点词,极大地减少人工工作量及人工误差。

    基于组合特征向量和SVMperf的情感分类方法及装置

    公开(公告)号:CN105975594A

    公开(公告)日:2016-09-28

    申请号:CN201610302834.7

    申请日:2016-05-09

    Applicant: 清华大学

    CPC classification number: G06F16/35 G06K9/6269

    Abstract: 本发明公开了一种基于组合特征向量和SVMperf的情感分类方法及装置,其中,方法包括以下步骤:从互联网上获取多条评论文本;对多条评论文本进行分词,划分出各个子成分词;获取句子的词法特征;提取每条评论文本的句法特征;通过预设算法使词法特征和句法特征相结合得到每条评论文本的组合特征向量;根据每条评论文本的组合特征向量训练SVMperf模型,进而通过调整SVMperf的运行参数得到最佳的分类结果。该方法通过组合特征向量和SVMperf对评论文本进行情感分类,从而得到最佳的分类结果,提高了分类精度,更好地识别出文本中用户的情感倾向,简单方便。

    一种基于共轭先验的单模分布估计优化方法

    公开(公告)号:CN105512754A

    公开(公告)日:2016-04-20

    申请号:CN201510855884.3

    申请日:2015-11-30

    Applicant: 清华大学

    Inventor: 徐华

    CPC classification number: G06Q10/043

    Abstract: 本发明涉及一种基于共轭先验的单模分布估计优化方法,其特征在于,包括以下内容:1)初始化Beta向量;2)通过Beta向量随机采样一个概率向量;3)利用概率向量随机采样一个种群,从种群中选取适应值较高的m个个体,利用选取的m个个利用选取的m个个体更新Beta向量将适应值最高的解作为最好解输出。本发明利用Beta分布是二项分布共轭先验这一性质,提出了基于Beta分布的两层分布估计算法,利用“分布的分布”有助于直接提高种群的多样性,并且通过限制Beta分布中参数的取值范围可以避免变量的收敛,这可以帮助已经陷入局部最优状态的算法获得改变状态的机会,可以广泛应用于作业车间调度中。

    输片协作的多个机器人设备的调度方法及系统

    公开(公告)号:CN103399543B

    公开(公告)日:2016-03-23

    申请号:CN201310311790.0

    申请日:2013-07-23

    Applicant: 清华大学

    Inventor: 徐华 袁源 高士云

    CPC classification number: Y02P90/02

    Abstract: 本发明提出一种输片协作的多个机器人设备的调度方法及系统,其中,方法包括以下步骤:接收多个机器人设备的待处理任务;对多个机器人设备进行配置,并生成配置信息;根据配置信息、多个机器人设备的拓扑结构、路径列表和晶圆列表生成对多个机器人设备进行有序调度的调度序列;以及根据调度序列和多个机器人设备的待处理任务对多个机器人设备进行调度控制,使多个机器人设备协同完成待处理任务。根据本发明实施例的方法,实现了对输片协作机器人设备特征、生产路径及所需加工晶圆信息的灵活配置,同时提高了机器人设备的工作效率。

    用于集成电路制造设备的通用控制内核系统

    公开(公告)号:CN102169436B

    公开(公告)日:2014-04-09

    申请号:CN201110120570.0

    申请日:2011-05-10

    Applicant: 清华大学

    Inventor: 徐华

    CPC classification number: G06F11/1433

    Abstract: 本发明公开了一种用于集成电路制造设备的通用控制内核系统,包括:配置模块,用于在所述内核系统启动时,将对象实例化并将实例化后的对象注册到名称空间中,创建初始名称空间树结构,对所述初始名称空间树结构中的对象进行初始化;控制模块,用于根据配置模块创建的初始名称空间树结构控制高层控制单元调用并执行低层控制单元的服务,其中控制对像的等级由低到高依次为物理层、功能层和操作层,且所述控制对象还包括与所述操作层同等级别的维护层;监控模块,用于监控所述内核系统的条件并在条件满足时独立地执行相应的动作。本发明提供支持软件互锁、数据日志、通信功能的强大应用程序编程接口,通过灵活的配置策略实现组件开发和软件复用。

Patent Agency Ranking