用于软件开发的语音识别训练数据

案例研究-创建和分析语音录音作为语音识别软件的训练数据

数千名“点击”工作人员录制语音指令,用于控制汽车信息娱乐系统。然后这些数据被转录和分析,为制造商提供重要的语音识别训练数据,需要编程和优化语音识别软件。

语音识别训练数据的挑战

语音控制系统的好坏取决于它们的语音识别。最大的挑战是优化和训练这些语音识别系统,以对各种各样的语音命令作出反应。
不包含“人的理性”和“人的行为”因素的程序不能产生理想的语音识别系统。在很多情况下,用户的语音命令不能被识别,或者被误解。

用户通常需要多次输入命令,系统才能正确地对输入做出反应并显示所需的信息。这对用户来说是很耗时的,而且会分散驾驶的注意力。

为了优化系统的范围,使其能够识别潜在用户的单个语音命令,需要对数千个不同用户的语音命令和发音进行录音。

解决方案:创建数据集来改进语音识别软件

来自不同国家和地区的数千名clickworker记录了他们如何通过信息娱乐系统发出命令,调用预定义的反应x或信息y。每一个18beplay官网 不同——即使是在同一种语言中——取决于个人对单词的选择、单词的顺序以及每个点击工作者的特定发音。

为了优化语音识别软件算法,还必须训练它们对某些线索(如关键字)作出反应。在第二步中,我们的点击工人转录所有的录音,并分析这些句子,以确定使用的关键字和它们的频率。

在这些录音的帮助下,制造商训练他们的语音识别软件,并优化信息娱乐系统,以响应用户处理系统的不同方式。

项目数据

Clickworker资格:来自目标地区的母语人士

语言:9种语言

录音数量(mp3格式):810,000(每种语言600个记录,适用于150个场景)

任务:
1.任务:创建录音
2.任务:转录录音
3.任务:分析和评估录音

质量保证:另一个Clickworker,转录员,检查录音的质量

数据传输:数据传输通过xls文件

工作流程

  1. 与客户讨论项目,并相应地定义任务。
  2. clickworker以任务分配的三个阶段建立项目,包括为Clickworkers提供的简报和质量保证。

    1. 任务:创建语音记录
      • 9种语言的录音
      • 150个场景,每种语言600个记录
      • 每种语言要求1200名点击工人
      • 音频格式:mp4文件了
    2. 任务:质量保证和抄写
      • 检查和抄写81万份母语人士的录音
    3. 任务:分析评估
      • 计算每个场景和语言的关键字及其频率
      • 过滤短语,包括每个场景和语言的频率
  3. 最终的任务结果通过xls-file传递给客户。

好处

  • 速度
  • 来自同一个源的三个服务
  • 简单获取知识和语言技能
  • 有质量保证的结果
  • 可伸缩的吞吐量
  • 灵活的劳动力

语音识别训练数据的难点:机器学习和人为因素

语音识别提供了许多有用的应用程序,可以使日常活动更容易。无论是用于在线搜索、解锁智能手机,还是操作汽车信息娱乐系统:越来越多的程序使用语音录音。这对软件开发提出了挑战。由于每个人说话的方式都因他们的方言、个人习惯或潜在的语言障碍而不同,因此需要训练程序在不同的迭代中识别相同的单词。这就是人为因素在收集语音识别训练数据中发挥如此重要作用的原因。仅仅使用一个记录来训练系统不会产生预期的结果。相反,我们提供了大量不同的录音,可以帮助机器学习。一旦奠定了这个基础,软件就可以使用训练数据来得出正确的结论,并继续发展。

Baidu