了解当今语音识别的历史及其在世界上的各种应
2020-11-09 次 什么是语音识别?
语音识别(也称为自动语音识别(ASR),计算机语音识别或语音转文本)是一种使程序能够将人类语音处理为书面格式的功能。尽管它通常与语音识别相混淆,但语音识别的重点是将语音从一种语言格式转换为一种文本格式,而语音识别只是试图识别单个用户的语音。
有效语音识别的关键特征
可以使用许多语音识别应用程序和设备,但是更高级的解决方案使用AI和机器学习。它们集成了音频和语音信号的语法,语法,结构和组成,以理解和处理人类语音。理想情况下,他们会随心所欲地学习-每次交互都会不断发展响应。
最佳的系统类型还使组织可以根据自己的特定要求对技术进行定制和调整,从语言和细微差别到品牌识别,应有尽有。例如:
语言权重:通过加权经常使用的特定单词(例如产品名称或行业术语),以超出基本词汇表中已有的术语,从而提高准确性。
演讲者标签:输出转录,引用或标记每个演讲者对多参与者对话的贡献。
声学培训:参加业务的声学方面。训练系统以适应声学环境(例如呼叫中心中的环境噪声)和扬声器样式(例如语音音调,音量和速度)。
亵渎过滤:使用过滤器识别某些单词或短语并清理语音输出。
语音识别算法
人类言语的多变使发展充满挑战。它被认为是计算机科学中最复杂的领域之一,涉及语言学,数学和统计学。语音识别器由一些组件组成,例如语音输入,特征提取,特征向量,解码器和单词输出。解码器利用声学模型,发音词典和语言模型来确定适当的输出。
评估语音识别技术的准确率,即字错误率(WER)和速度。许多因素会影响单词错误率,例如发音,重音,音高,音量和背景噪音。达到人的均等性(意味着与两个人说话的人相称的错误率)一直是语音识别系统的目标。研究估计字词错误率大约为4%,但是很难复制本文的结果。
各种算法和计算技术用于将语音识别为文本并提高转录的准确性。以下是一些最常用方法的简要说明:
自然语言处理(NLP):尽管NLP不一定是语音识别中使用的特定算法,但人工智能领域的重点是人类与机器之间通过语音和文本通过语言进行交互。许多移动设备将语音识别功能集成到其系统中,以进行语音搜索(例如Siri)或在短信周围提供更多的可访问性。
隐藏马尔可夫模型(HMM):隐藏马尔可夫模型基于马尔可夫链模型,该模型规定给定状态的概率取决于当前状态,而不是先前状态。尽管马尔可夫链模型对于可观察的事件(例如文本输入)很有用,但隐藏的马尔可夫模型使我们可以将诸如词性标记之类的隐藏事件合并到概率模型中。它们被用作语音识别中的序列模型,为序列中的每个单元(即单词,音节,句子等)分配标签。这些标签使用提供的输入创建映射,从而使其可以确定最合适的标签序列。
N-gram:这是语言模型(LM)的最简单类型,它为句子或短语分配概率。N-gram是N个单词的序列。例如,“订购披萨”是三克或3克,“请订购披萨”是4克。某些单词序列的语法和概率可用于提高识别度和准确性。
神经网络:主要用于深度学习算法,神经网络通过模仿人类大脑通过节点层的互连性来处理训练数据。每个节点由输入,权重,偏差(或阈值)和输出组成。如果该输出值超过给定阈值,它将“触发”或激活该节点,将数据传递到网络的下一层。神经网络通过监督学习来学习此映射函数,并通过梯度下降过程基于损失函数进行调整。尽管神经网络往往更准确并且可以接受更多数据,但这是以性能效率为代价的,因为与传统语言模型相比,它们的训练速度较慢。
说话者区分(SD):说话者区分算法通过说话者身份识别和分割语音。这有助于程序更好地区分对话中的个人,并经常应用于区分客户和销售代理商的呼叫中心。
语音识别用例
今天,许多行业正在利用语音技术的不同应用,从而帮助企业和消费者节省时间,甚至挽救生命。一些示例包括:
汽车:语音识别器通过在汽车收音机中启用语音激活的导航系统和搜索功能来提高驾驶员的安全性。
技术:虚拟助手越来越融入我们的日常生活中,尤其是在我们的移动设备上。我们使用语音命令通过我们的智能手机(例如,通过Google Assistant或Apple的Siri)来访问它们,以执行诸如语音搜索之类的任务,或者通过扬声器,通过亚马逊的Alexa或微软的Cortana,来播放音乐。它们只会继续集成到我们使用的日常产品中,从而推动“物联网”运动。
医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。
销售:语音识别技术在销售中有两个应用。它可以帮助呼叫中心在客户和座席之间转录成千上万个电话,以识别常见的呼叫模式和问题。认知机器人还可以通过网页与人们交谈,回答常见查询并解决基本请求,而无需等待联络中心座席可用。两种情况下,语音识别系统都有助于减少解决消费者问题的时间。
安全性:随着技术融入我们的日常生活中,安全协议变得越来越重要。基于语音的身份验证增加了可行的安全级别。
语音识别(也称为自动语音识别(ASR),计算机语音识别或语音转文本)是一种使程序能够将人类语音处理为书面格式的功能。尽管它通常与语音识别相混淆,但语音识别的重点是将语音从一种语言格式转换为一种文本格式,而语音识别只是试图识别单个用户的语音。
有效语音识别的关键特征
可以使用许多语音识别应用程序和设备,但是更高级的解决方案使用AI和机器学习。它们集成了音频和语音信号的语法,语法,结构和组成,以理解和处理人类语音。理想情况下,他们会随心所欲地学习-每次交互都会不断发展响应。
最佳的系统类型还使组织可以根据自己的特定要求对技术进行定制和调整,从语言和细微差别到品牌识别,应有尽有。例如:
语言权重:通过加权经常使用的特定单词(例如产品名称或行业术语),以超出基本词汇表中已有的术语,从而提高准确性。
演讲者标签:输出转录,引用或标记每个演讲者对多参与者对话的贡献。
声学培训:参加业务的声学方面。训练系统以适应声学环境(例如呼叫中心中的环境噪声)和扬声器样式(例如语音音调,音量和速度)。
亵渎过滤:使用过滤器识别某些单词或短语并清理语音输出。
语音识别算法
人类言语的多变使发展充满挑战。它被认为是计算机科学中最复杂的领域之一,涉及语言学,数学和统计学。语音识别器由一些组件组成,例如语音输入,特征提取,特征向量,解码器和单词输出。解码器利用声学模型,发音词典和语言模型来确定适当的输出。
评估语音识别技术的准确率,即字错误率(WER)和速度。许多因素会影响单词错误率,例如发音,重音,音高,音量和背景噪音。达到人的均等性(意味着与两个人说话的人相称的错误率)一直是语音识别系统的目标。研究估计字词错误率大约为4%,但是很难复制本文的结果。
各种算法和计算技术用于将语音识别为文本并提高转录的准确性。以下是一些最常用方法的简要说明:
自然语言处理(NLP):尽管NLP不一定是语音识别中使用的特定算法,但人工智能领域的重点是人类与机器之间通过语音和文本通过语言进行交互。许多移动设备将语音识别功能集成到其系统中,以进行语音搜索(例如Siri)或在短信周围提供更多的可访问性。
隐藏马尔可夫模型(HMM):隐藏马尔可夫模型基于马尔可夫链模型,该模型规定给定状态的概率取决于当前状态,而不是先前状态。尽管马尔可夫链模型对于可观察的事件(例如文本输入)很有用,但隐藏的马尔可夫模型使我们可以将诸如词性标记之类的隐藏事件合并到概率模型中。它们被用作语音识别中的序列模型,为序列中的每个单元(即单词,音节,句子等)分配标签。这些标签使用提供的输入创建映射,从而使其可以确定最合适的标签序列。
N-gram:这是语言模型(LM)的最简单类型,它为句子或短语分配概率。N-gram是N个单词的序列。例如,“订购披萨”是三克或3克,“请订购披萨”是4克。某些单词序列的语法和概率可用于提高识别度和准确性。
神经网络:主要用于深度学习算法,神经网络通过模仿人类大脑通过节点层的互连性来处理训练数据。每个节点由输入,权重,偏差(或阈值)和输出组成。如果该输出值超过给定阈值,它将“触发”或激活该节点,将数据传递到网络的下一层。神经网络通过监督学习来学习此映射函数,并通过梯度下降过程基于损失函数进行调整。尽管神经网络往往更准确并且可以接受更多数据,但这是以性能效率为代价的,因为与传统语言模型相比,它们的训练速度较慢。
说话者区分(SD):说话者区分算法通过说话者身份识别和分割语音。这有助于程序更好地区分对话中的个人,并经常应用于区分客户和销售代理商的呼叫中心。
语音识别用例
今天,许多行业正在利用语音技术的不同应用,从而帮助企业和消费者节省时间,甚至挽救生命。一些示例包括:
汽车:语音识别器通过在汽车收音机中启用语音激活的导航系统和搜索功能来提高驾驶员的安全性。
技术:虚拟助手越来越融入我们的日常生活中,尤其是在我们的移动设备上。我们使用语音命令通过我们的智能手机(例如,通过Google Assistant或Apple的Siri)来访问它们,以执行诸如语音搜索之类的任务,或者通过扬声器,通过亚马逊的Alexa或微软的Cortana,来播放音乐。它们只会继续集成到我们使用的日常产品中,从而推动“物联网”运动。
医疗保健:医生和护士利用听写应用程序来捕获和记录患者的诊断和治疗记录。
销售:语音识别技术在销售中有两个应用。它可以帮助呼叫中心在客户和座席之间转录成千上万个电话,以识别常见的呼叫模式和问题。认知机器人还可以通过网页与人们交谈,回答常见查询并解决基本请求,而无需等待联络中心座席可用。两种情况下,语音识别系统都有助于减少解决消费者问题的时间。
安全性:随着技术融入我们的日常生活中,安全协议变得越来越重要。基于语音的身份验证增加了可行的安全级别。