基于Spark的多特征结合中文文本高效聚类方法

    公开(公告)号:CN107590218B

    公开(公告)日:2020-11-06

    申请号:CN201710777064.6

    申请日:2017-09-01

    Abstract: 本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法,该方法利用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后进行数据预处理,通过客户端提交到Spark集群;完成文本集预处理后,将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度,然后将两种相似度进行结合,得到最终的文本相似度,利用得到的文本相似度,并结合最大距离法,进行文本聚类。本发明将语义信息和词频统计信息结合在一起,使得文本相似度的计算更加准确,同时极大减少了迭代的次数。

    基于DSP和FPGA的总线故障注入系统

    公开(公告)号:CN106776188B

    公开(公告)日:2020-07-31

    申请号:CN201611260831.8

    申请日:2016-12-30

    Abstract: 本发明公开了一种基于DSP和FPGA的总线故障注入系统,包括DSP主处理器、FPGA、上位机、以太网接口模块、DA模块、RS422接口模块、RS485接口模块、继电器网络、电阻网络和存储模块;通过串接在总线系统中来进行所需故障模式配置,RS422/RS485接口模块用来接收总线上的串行信号,由FPGA转换成并行信号,经过DSP处理后,通过FPGA控制DA模块和继电器网络输出注入故障后的信号。本发明采用硬件故障注入,可以实现物理层、电气层、协议层次故障注入功能,更真实的模拟硬件在实际运行过程中发生的故障,在总线设备正常通信中实时加入各种故障。

    基于Spark的多特征结合中文文本高效聚类方法

    公开(公告)号:CN107590218A

    公开(公告)日:2018-01-16

    申请号:CN201710777064.6

    申请日:2017-09-01

    Abstract: 本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法,该方法利用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后进行数据预处理,通过客户端提交到Spark集群;完成文本集预处理后,将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度,然后将两种相似度进行结合,得到最终的文本相似度,利用得到的文本相似度,并结合最大距离法,进行文本聚类。本发明将语义信息和词频统计信息结合在一起,使得文本相似度的计算更加准确,同时极大减少了迭代的次数。

    基于DSP和FPGA的总线故障注入系统

    公开(公告)号:CN106776188A

    公开(公告)日:2017-05-31

    申请号:CN201611260831.8

    申请日:2016-12-30

    CPC classification number: G06F11/2273 G06F11/263

    Abstract: 本发明公开了一种基于DSP和FPGA的总线故障注入系统,包括DSP主处理器、FPGA、上位机、以太网接口模块、DA模块、RS422接口模块、RS485接口模块、继电器网络、电阻网络和存储模块;通过串接在总线系统中来进行所需故障模式配置,RS422/RS485接口模块用来接收总线上的串行信号,由FPGA转换成并行信号,经过DSP处理后,通过FPGA控制DA模块和继电器网络输出注入故障后的信号。本发明采用硬件故障注入,可以实现物理层、电气层、协议层次故障注入功能,更真实的模拟硬件在实际运行过程中发生的故障,在总线设备正常通信中实时加入各种故障。

    基于Spark平台的快速高精度语义相关度计算方法

    公开(公告)号:CN106951407A

    公开(公告)日:2017-07-14

    申请号:CN201710152586.7

    申请日:2017-03-15

    Abstract: 本发明涉及一种基于Spark平台的快速高精度语义相关度计算方法,该方法包括:在服务器上构建HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存中;将所有任务分为不同的Stage,然后同时运行各个任务;对RDD进行预处理,将RDD中的数据转换为纯文本的形式,过滤与语义相关度计算无关的概念和词语;构建“概念—词语”向量空间;计算词语语义相关度。相对于传统的单机计算,本发明提出的语义相关度计算方法在构建语义空间时,计算速度提高了数倍,同时具有较高的精度。

Patent Agency Ranking