AI是怎样识别语音的？#AI科普#人工智能#AI工具

聆听你的声音。今天我们要讲的是语音识别。

自然界的声音丰富多样，我们为什么不会将下雨声、刮风声、打雷声听成是人在说话呢？因为不同的声音有区别。语音识别的第一步就是将特定的声音区分出来。

那么，声音的特征如何分辨呢？声音在空气中的传播称为声波，它是由空气振动产生的，就像我们眼睛所见的画面都是由光波产生的。但是计算机不认识什么光波和声波，它只认数字，所以我们的录音设备就要将空气的震动用数字记录下来，这被称为波形图。

波形图上面的每一个点都用一个数字来表示当前时刻下的空气压力，这就是计算机听到的声音。而计算机的大脑还会将它们进行简单变换，变成频谱图，你可以理解为是声音里高低音的分布。

通过这样的处理，声音变成了一种特殊的图片。计算机就可以通过分析这些图片来总结其中的特征，将不同的声音区分出来。

枪声、婴儿哭声、说话声，在计算机的眼里都是很不一样的。就算同样是人类说话的声音，不同的发音内容对应的声音图片也很不相同。

比如人类发啊和一的声音频谱图就很不一样，这是计算机进行语音识别的基础。现代语音识别系统一般都是通过复杂的统计模型，也就是在大量语音数据中找规律来识别语音中的内容。

它们不仅要识别不同的因素，如r o a等，还要将这些因素组合起来变成可能的词和句子。为了达到比较高的准确率，语音识别系统要考虑发音上的各种变异，处理发音之间的关联，还要借助语言知识对识别结果进行约束，来解决同音字的问题。

比如我被鱼刺卡了，就比我被鱼刺卡了更有可能性。目前，语音识别技术已被广泛应用于识别各种语音指令，它让我们不用手、只用声音就能向手机、智能家居、车载设备等发布命令，不仅便捷，还能免除不少危险。

除了识别发音内容，机器还可以通过声音验证我们的身份，判断我们的位置，辨别我们的情绪。结合语音合成技术，机器还能模仿人的发音。

有了这些做基础，机器真的成为一位能听会说的好朋友了。

图文助手更多>>