基于OCR技术辅助构建藏汉音译数据集的方法及系统

    公开(公告)号:CN116468054A

    公开(公告)日:2023-07-21

    申请号:CN202310466088.5

    申请日:2023-04-26

    Inventor: 徐晓娜 谭晶 赵悦

    Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。

    基于OCR技术辅助构建藏汉音译数据集的方法及系统

    公开(公告)号:CN116468054B

    公开(公告)日:2023-11-07

    申请号:CN202310466088.5

    申请日:2023-04-26

    Inventor: 徐晓娜 谭晶 赵悦

    Abstract: 本发明公开了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,应用于数据处理技术领域:提取视频文件源,对带有中文字幕的藏语视频进行分离,得到长音频文件和视频文件;对长音频文件进行切分、数据清洗、重采样、降噪操作,得到音频数据;视频文件通过OCR技术识别字幕,生成中文文本初文件,对中文文本初文件进行数据清洗,并输入藏文字幕,得到文本数据;利用音频数据和文本数据构建藏汉音译数据集。本发明对传统的录制音频采集数据方式加以改进,结合藏语自然口语语音的基本特点,选用有自然口语表达效果的电视访谈节目作为采集来源,整理制作了用于藏汉语音翻译研究的平行语料,为端到端藏汉语音翻译研究提供了一定的数据支撑。

Patent Agency Ranking