-
公开(公告)号:CN103024746B
公开(公告)日:2015-06-17
申请号:CN201210592920.8
申请日:2012-12-30
申请人: 清华大学 , 安徽科大讯飞信息科技股份有限公司
摘要: 一种电信运营商垃圾短信处理系统及处理方法,包括:线上及时处理内核子系统、线下数据挖掘子系统;线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;线下数据挖掘子系统,包括短信粗选模块和模板聚类模块。本发明能够对海量短信进行多维度有效分类,并具有良好的系统维护性。
-
公开(公告)号:CN103699574A
公开(公告)日:2014-04-02
申请号:CN201310627325.8
申请日:2013-11-28
申请人: 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/30
CPC分类号: G06F16/93
摘要: 本发明公开了一种对复杂检索式进行检索优化的方法及系统,前者包括:将复杂检索式优化为等价检索式;对文档集中的文档进行检索分析,包括根据文档包含检索词的情况,估算文档的最大检索得分;判断文档的最大检索得分是否大于第一得分门限,如大于则确定文档通过估算;精确计算通过估算的文档的检索得分;判断通过估算的文档的检索得分是否大于第二得分门限,如大于则确定通过估算的文档通过精确计算,第一得分门限大于等于第二得分门限;将通过精确计算的文档列入检索结果集。本发明的方法在对复杂检索式进行简化的基础上,通过对文档进行高效的估算,快速过滤掉得分较低的文档,减少了后续需要精确计算检索得分的文档数量,大大提高了检索效率。
-
公开(公告)号:CN103440270A
公开(公告)日:2013-12-11
申请号:CN201310334235.X
申请日:2013-08-02
申请人: 清华大学 , 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及音频处理技术领域,公开了一种实现音频文件重复模式发现的系统和方法。该系统包括:获取模块,用于获取各音频文件;特征提取模块,用于从所述音频文件中提取音频比对特征;匹配模块,用于基于所述音频比对特征依次两两匹配所述音频文件,得到两两匹配的重复音频片段;合并模块,用于将在多个音频文件中均出现的重复音频片段进行合并,生成音频文件重复模式。利用本发明,可以实现大规模音频库中重复模式的准确发现。
-
公开(公告)号:CN103440234A
公开(公告)日:2013-12-11
申请号:CN201310316262.4
申请日:2013-07-25
申请人: 清华大学 , 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/27
摘要: 本发明涉及自然语言处理技术领域,公开了一种自然语言理解系统及方法。该系统包括:网络库构建模块,用于预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收模块,用于接收用户输入的自然语言;文本内容获取模块,用于获取所述自然语言对应的文本内容;匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;语义确定模块,用于获取并输出所述匹配路径上的语义信息。本发明可以满足用户针对海量文本数据的深层语义理解的需求。
-
公开(公告)号:CN101464896A
公开(公告)日:2009-06-24
申请号:CN200910001164.5
申请日:2009-01-23
申请人: 安徽科大讯飞信息科技股份有限公司
摘要: 本发明公开了一种语音模糊检索方法及装置,其中方法包括以下步骤:利用预置的声学模型及语言模型对获取的语音信号进行语音识别,得到识别结果;利用预置的索引表根据所述识别结果在预置的文本条目库中进行检索,得到初选条目;将所述初选条目与所述识别结果进行字符串模糊匹配,选取匹配度在预置的匹配度阈值范围内的条目作为精选条目,同时记录各条目的匹配位置;计算精选条目匹配部分文本与所述语音信号间的后验概率,最终利用后验概率以及通过所述匹配位置得到的匹配比例选择若干个条目作为语音信号的检索结果。采用本发明,可实现基于语音信号在海量文本条目库上的快速准确检索到与语音信号相匹配的文本条目。
-
公开(公告)号:CN103678514A
公开(公告)日:2014-03-26
申请号:CN201310611664.7
申请日:2013-11-26
申请人: 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/30
CPC分类号: G06Q10/04
摘要: 本发明公开了一种业务趋势预测方法及系统,该方法包括:从业务中心系统中以预测周期为单位获取预测项的统计历史业务数据序列;对统计历史业务数据序列按照所述预测项的业务周期进行去周期化处理,获得处理后的统计历史业务数据序列;根据处理后的统计历史业务数据序列,采用时间序列预测的方法对所述预测项在选定预测周期内的业务趋势进行预测,获取初步预测数据;对初步预测数据进行与所述去周期化处理相对应的还原周期化处理,获得选定预测周期的预测数据。本发明通过对已上线业务的发展趋势进行预测,帮助运营商提前了解业务的变化趋势,发现业务的异常情况,进而使得运营商可以及时的找到应对策略,提升自己的服务品质,提高自身的竞争力。
-
公开(公告)号:CN104766611A
公开(公告)日:2015-07-08
申请号:CN201410007278.1
申请日:2014-01-07
申请人: 安徽科大讯飞信息科技股份有限公司
IPC分类号: G10L15/30 , G10L15/065
摘要: 本发明公开了一种目标任务分布估计和声学模型自适应方法及系统,前者包括获取目标任务相应于候选语音识别结果数据集的分布,作为目标任务的覆盖度分布;获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果构成第一低置信度数据集;获取目标任务相应于第一低置信度数据集的分布,作为目标任务的混淆度分布;对覆盖度和混淆度分布进行融合,获得目标任务分布。本发明的方法及系统基于候选语音识别结果数据集估计目标任务分布,具有时效性强、节省人力成本的优点,而且融合了基于识别效果较差的语音识别结果获取的目标任务的混淆度分布,可以有效提升整体语音识别系统的性能。
-
公开(公告)号:CN103440253A
公开(公告)日:2013-12-11
申请号:CN201310315239.3
申请日:2013-07-25
申请人: 清华大学 , 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/30
摘要: 本发明涉及语音检索技术领域,公开了一种语音检索方法及系统,该方法包括:接收用户输入的检索关键词;对所述检索关键词进行单字切分,得到单字切分分词;根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。利用本发明,可以提高检索结果的有效性和全面性。
-
公开(公告)号:CN103678513A
公开(公告)日:2014-03-26
申请号:CN201310611470.7
申请日:2013-11-26
申请人: 安徽科大讯飞信息科技股份有限公司
IPC分类号: G06F17/30
CPC分类号: G06F17/30705 , G06F17/30646
摘要: 本发明公开了一种交互式的检索式生成方法及系统,该方法包括:在接收到用户输入的一级检索式后获取与所述一级检索式相对应的一级检索文档集;对一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集;提取所述一级检索文档子集中的主题词;将主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。本发明的交互式的检索式生成方法及系统可以辅助用户生成复杂检索式,帮助专业检索领域的专业检索人员生成更为精确的检索式。
-
公开(公告)号:CN103024746A
公开(公告)日:2013-04-03
申请号:CN201210592920.8
申请日:2012-12-30
申请人: 清华大学 , 安徽科大讯飞信息科技股份有限公司
摘要: 一种电信运营商垃圾短信处理系统及处理方法,包括:线上及时处理内核子系统、线下数据挖掘子系统;线上及时处理内核子系统,包括简单规则匹配模块、短信预处理模块、快速模板匹配模块和分类处理模块;线下数据挖掘子系统,包括短信粗选模块和模板聚类模块。本发明能够对海量短信进行多维度有效分类,并具有良好的系统维护性。
-
-
-
-
-
-
-
-
-