-
公开(公告)号:CN113076750A
公开(公告)日:2021-07-06
申请号:CN202110463683.4
申请日:2021-04-26
Applicant: 华南理工大学
IPC: G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于新词发现的跨领域中文分词系统及方法,该系统包括:新词发现模块,使用结合统计信息和语义信息的增强互信息来实现新词发现算法,用于从无标注的语料中挖掘新词词表;自动标注模块,使用新词词表结合逆向最大匹配算法实现对无标注语料的初始切分,得到切分不完全的语料,使用分词模型对切分不完全的语料进行完全切分,得到自动标注的语料;跨领域分词模块,使用对抗式方法实现跨领域中文分词算法,并使用有标注的源领域语料和自动标注的语料进行对抗式训练。本发明使用增强互信息优化了新词发现算法,提升了新词发现的准确率和词表的领域性;在跨领域分词算法中提升了对无标注语料的利用率,优化了分词的召回率和准确率。
-
公开(公告)号:CN113076750B
公开(公告)日:2022-12-16
申请号:CN202110463683.4
申请日:2021-04-26
Applicant: 华南理工大学
IPC: G06F40/289 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种基于新词发现的跨领域中文分词系统及方法,该系统包括:新词发现模块,使用结合统计信息和语义信息的增强互信息来实现新词发现算法,用于从无标注的语料中挖掘新词词表;自动标注模块,使用新词词表结合逆向最大匹配算法实现对无标注语料的初始切分,得到切分不完全的语料,使用分词模型对切分不完全的语料进行完全切分,得到自动标注的语料;跨领域分词模块,使用对抗式方法实现跨领域中文分词算法,并使用有标注的源领域语料和自动标注的语料进行对抗式训练。本发明使用增强互信息优化了新词发现算法,提升了新词发现的准确率和词表的领域性;在跨领域分词算法中提升了对无标注语料的利用率,优化了分词的召回率和准确率。
-
公开(公告)号:CN110390945A
公开(公告)日:2019-10-29
申请号:CN201910678398.7
申请日:2019-07-25
Applicant: 华南理工大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/60 , G10L25/06 , G10L25/21 , G10L25/24
Abstract: 本发明公开了一种基于双通道维纳滤波的双传感器语音增强方法及实现装置,该方法首先利用气导语音与非气导语音之间的互补性,建立对气导传感器和非气导传感器双通道输入信号进行帧分类的双通道语音联合分类模型,并利用该模型来对双通道采集的语音帧进行分类,最后根据分类结果构造双通道维纳滤波器,对双通道采集的语音信号进行滤波增强。与现有技术相比,本发明更充分地融合了气导语音与非气导语音所包含的信息,并通过统计模型引入语音信号的先验知识,能有效提高语音增强系统在噪声环境下的增强效果。本发明可以广泛应用于视频通话、车载电话、多媒体教室、军事通信等多种场合。
-
公开(公告)号:CN110390945B
公开(公告)日:2021-09-21
申请号:CN201910678398.7
申请日:2019-07-25
Applicant: 华南理工大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/60 , G10L25/06 , G10L25/21 , G10L25/24
Abstract: 本发明公开了一种基于双通道维纳滤波的双传感器语音增强方法及实现装置,该方法首先利用气导语音与非气导语音之间的互补性,建立对气导传感器和非气导传感器双通道输入信号进行帧分类的双通道语音联合分类模型,并利用该模型来对双通道采集的语音帧进行分类,最后根据分类结果构造双通道维纳滤波器,对双通道采集的语音信号进行滤波增强。与现有技术相比,本发明更充分地融合了气导语音与非气导语音所包含的信息,并通过统计模型引入语音信号的先验知识,能有效提高语音增强系统在噪声环境下的增强效果。本发明可以广泛应用于视频通话、车载电话、多媒体教室、军事通信等多种场合。
-
-
-