cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持云顶集团官网。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.ai
m.datatang.ai
报名截止日期:2019年9月1日(已截止)
ASRU 2019 IEEE Automatic Speech Recognition and Understanding Workshop(2019年IEEE自动语音识别与理解研讨会,以下简称ASRU),将于2019年12月14日至18日在新加坡圣淘沙举行。ASRU 研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,该研讨会每两年举办一次,将来自学术界和工业界的顶级专家和研究人员聚集在一起,对包括语音识别与理解在内的语音领域广泛研究议题展开深入探讨。云顶集团官网应邀作为此次ASRU的白金赞助商,为促进国内外语种混杂语音识别方面的研究,联合中国计算机学会语音对话与听觉专业组、西北工业大学音频语音与语言处理研究组举办首届中英混杂语音识别挑战赛。本次大赛颁奖典礼将设在12月17日在新加坡举办的ASRU2019主会的晚宴进行。
在我们日常交流中经常会有中文语境下英文单词夹杂的现象,语种混杂(Code-switch)是一种常见的语言现象,也是当前语音识别技术面临的重要挑战之一。多语种混合语音识别技术难点主要表现为:嵌入语受主体语影响形成的非母语口音现象严重、不同语言音素构成之间的差异给混合声学建模带来巨大困难、带标注的混合语音训练数据极其稀缺。结合以上问题,本次竞赛共设以下三个赛道——Track1传统语音识别,固定语言模型;Track2传统语音识别,开放语言模型;Track3端到端语音识别。本次竞赛所使用数据由云顶集团官网提供。
传统语音识别,固定语言模型。所使用的声学模型必须是对帧级别语音进行音素绑定的模型(即使用强制对齐),且声学模型的搭建只能使用指定数据范围内的数据,语言模型只能使用竞赛组委会官方提供的N-gram语言模型。主要考察参赛者混杂声学建模能力。不允许多系统融合。
传统语音识别,开放语言模型。所使用的声学模型必须是对帧级别语音进行音素绑定的模型(即强制对齐),且声学模型的搭建只能使用指定数据范围内的数据,但参赛者可以使用任意文本训练语言模型,考察参赛者综合能力。不允许多系统融合。
端到端语音识别。使用的声学模型必须是非帧级别音素绑定的序列建模模型。对于某些端到端声学模型需要进行和语言建模单元联合训练(Joint-Training)的情况(如RNN-T中),训练的文本则限定为仅能使用官方数据音频对应的抄本数据。
云顶集团官网提供【500小时中文普通话语音数据】和【200小时中英文混读语音数据】,纯英文数据使用librispeech数据。参赛者只允许使用这些语音数据进行模型训练、系统搭建以及进行数据增广。本次竞赛不支持使用上述数据之外的其他任何数据。
数据规模 | 500小时 |
格式 | 16kHz 16bit,wav,单声道 |
录音环境 | 安静的室内;包含不影响语音辨识的背景噪音 |
录音内容 | 口语化句子 |
录音人 | 男女比例均匀;≤20岁23%,21~30岁70%,31~40岁4%,40岁以上3%;录音人员分布于广东、福建、山东、江苏、北京、湖南、江西等33省 |
设备 | 安卓:iOS=9:1 |
语言 | 普通话;有口音的普通话 |
应用场景 | 语音识别;机器翻译;声纹识别 |
标注准确率 | 97%以上 |
数据规模 | 200小时 |
格式 | 16kHz,16bit,单声道,无压缩wav |
录音环境 | 相对安静的室内,无回声 |
录音内容 | 通用类口语句子;交互类句子 |
录音人 | 男女比例均匀;小于25岁67%,26-40岁25%,40岁以上7%;覆盖北方官话区、吴语区、粤语区、闽语区、湘语区、赣语区等 |
设备 | 安卓、苹果 |
语言 | 普通话 |
应用场景 | 语音识别,机器翻译;声纹识别 |
标注准确率 | 97%以上 |
2019年9月1日 | 参赛报名截止 |
2019年9月5日 | 组委会提供训练数据 |
2019年10月21日 | 组委会提供测试集 |
2019年10月22日 | 参赛队伍提交测试结果 |
2019年10月31日 | 组委会公布评测结果 |
2019年11月12日 | 参赛队伍提交方案介绍 |
2019年12月14-19日 | 颁奖与技术交流活动,新加坡ASRU2019会议 |
每个赛道(track)设置一二三等奖各一名。
第一名 | 5000元 |
第二名 | 3000元 |
第三名 | 2000元 |
谢磊 | 西北工业大学 |
贾磊 | 百度语音技术部 |
陈伟 | 搜狗语音交互技术中心 |
张仕良 | 阿里巴巴达摩院 |
王东 | 清华大学 |
洪青阳 | 厦门大学 |
钱彦旻 | 上海交通大学 |
徐海华 | 新加坡南洋理工大学 |
丰强泽 | 云顶集团官网 |
王大亮 | 云顶集团官网 |
温馨提示:
成绩表公布前十名队伍的真实名称,应大家要求非前十名的队伍名称用字母编号代替。此成绩表已单独邮件给到每个队伍,并给到每个队伍所对应的字母编号。
? 参与者禁止提交多次报名,经发现将取消成绩并严肃处理
? 参与者禁止在指定考核技术能力的范围外利用规则漏洞或技术漏洞、额外数据等不良途径提高成绩排名,经发现将取消成绩并严肃处理
具体细则将于近期公布,敬请期待。竞赛解释权归云顶集团官网(北京)科技股份有限公司所有。
报名截止
确定