语音识别的未来：认识您的AI控制的“数字孪生”

这是一篇重新发布的文章，我们从TechRadar Originals套件中将其选为去年的最爱之一。

语音是与设备进行交互的一种自然方式，而不是按动按钮和屏幕。近年来，语音技术已迅速普及，如今，语音支持的数字助理已集成到几乎所有可以想象到的家用设备中。

XMOS等公司的工作使这种增长成为可能。该名称可能并不立即为人所熟悉，但是如果您曾经使用过支持Alexa的设备，那么您就可以从其技术中受益。

XMOS是一家无晶圆厂半导体公司，专门从事语音处理。它的算法能够检测整个房间中的轻声语音命令，即使在挑战性的条件下（例如表面坚硬的房间）。那么为什么声音如此迅速地发出呢？

“我认为这使生活变得更轻松，” XMOS算法工程师Alex Craciun说。“您不需要那么多电缆和复杂的说明就可以了。您可以只给出命令，设备即可进行自我调整，也可以告诉您所需的内容。这样容易得多。”

企业营销总监Esther Connock补充说：“我为父母提供IT支持，我们认为声音将结束，因为您的技术将告诉您它的工作原理。” “它不需要遥控器。它不需要附带说明手册–您只需以一种非常自然的对话方式与之交谈，这对我们来说使技术民主化，因为您无需学习如何使用它。您不需要掌握知识。

“因此，如果您想到的是识字率低或教育水平低的人，突然之间就会有一个更加开放的竞争环境。社会中的弱势群体可以利用技术并减少孤立感。因此对我们来说，声音是世界上最自然的事物。”

很好聊

XMOS是布里斯托尔科技产业蓬勃发展的一部分，该市的新兴技术来自该市的两所大学，其中还包括Ultrahaptics（使用超声在空中产生触摸感），Reach Robotics（Mekamon增强现实机器人的创建者）和Graphcore（从XMOS衍生出来）。

ESTHER CONNOCK，XMOS

它的语音检测和隔离技术包括波束成形（当人们在房间中移动并跟踪麦克风时跟踪声音），回声消除（将用户的声音与设备本身播放的声音分开），混响（补偿）（用于回声），噪声抑制，插入（当检测到设备的唤醒词时停止音频播放）以及固定或自动增益控制（确保电话会议中的所有声音都能听到相同的音量，而不管声音有多大）。人在说话）。

该公司成立于2005年，以布里斯托大学的研究为基础。Connock解释说：“他们开发了一种微控制器，该微控制器可以执行大量处理，具有强大功能和功能，并且可以同时执行许多任务。”

苹果在2008年决定取消FireWire端口的决定为USB音频打开了市场，XMOS在其中找到了定位。该公司进行了多元化发展，不仅为Harmon Kardon和Yamaha这样的大型公司服务，而且还为拥有混合调音台的DJ服务，然后才转向多声道音频。

“使用具有强大处理能力的电路板，我们可以生产多达32个通道的输出，因此我们可以获得出色的多通道音频，” Connock解释说。“声音和音频的专业知识使我们开始发出声音。我们的一位客户说：“凭借您的所有专业知识，您应该考虑使用麦克风并捕捉声音。” 这正是我们所做的。”

对我们来说[语音]使技术民主化，因为您无需学习如何使用它

Esther Connock，XMOS

2017年，XMOS的远场语音接口获得了Amazon认证。“我们仍然是他们在立体声解决方案方面的唯一合格合作伙伴，因此对于开发电视，条形音箱和机顶盒并以真实立体声进行工作的任何人，我们都是唯一可以立体声消除声音的提供商，” Connock说。“这对我们来说确实很重要，这也是我们今年在CES上大力关注的事情。但是我们也刚刚获得百度的资格，这非常令人兴奋，并且我们也在与NTT Docomo进行一些合作。我们正在整个地区扩展。”

出门在外

XMOS当前专注于房间边缘语音应用，但它也在研究其他领域，包括车内接口。

Connock表示：“我们在波士顿开发的技术–声音源分离，可以在对话中提取多种声音–确实适用于汽车。” “因此，如果您可以想象我可以和您通电话，而我正在开车，那么它将去除您可以听到的除了我的声音以外的所有内容。孩子们可能在背后大喊大叫，他们可以播放正在播放的电影，而您所得到的只是我的声音。”

该公司对语音的未来也有一个有趣的预测：作为个人助理（在可穿戴式智能手机中），它将坐在我们和当前提供语音识别服务的大公司之间。

“如果我看一下亚马逊和谷歌（以及某种程度上苹果公司的苹果音乐），他们会有偏见，因为他们试图向我们出售东西。我爱亚马逊，因为我卖给我东西，但我不想要语音垃圾邮件，而在发生的那一刻，人们将不再使用语音。” Connock解释说。

该解决方案将是一种中间层，可以过滤掉所有垃圾邮件，并为您提供内容最相关的服务（它将根据您的偏好进行学习）。

您的数字双胞胎

这不仅仅是一种理论-XMOS已经开始进行对话以实现它。“这将很快发生，” Connock说，“因此，我们正在寻找合作，建立，购买以创建该生态系统的机会。因此，其中有很多–我们知道今天有很多人在该领域开展业务。它是开放的，已经准备就绪，我们想利用它。

它不仅会学习我的音乐偏好，还会学习我的所有偏好

Esther Connock，XMOS

根据Connock的说法，这将导致创建“数字双胞胎”-她承认这个词听起来有些微词，但很有用。它会学习并适应您的使用方式。例如，它可以得知您不希望它与您说话，除非您先讲话。

“它将不仅学习我的音乐偏好，而且学习我的所有偏好。当我想被打扰时，我会优先与我的朋友聊天-一切。”

自然而言

但是，即使有了真正的私人助理来过滤掉任何垃圾邮件，语音识别仍然面临一些阻力。

“当您查看时，” Connock拿起她的智能手机时说，“它一直都在，它有一个摄像头，它总是能听到您的声音，有传感器，它收集了很多数据，您将所有内容输入其中，而且由于我们已经习惯并依赖它，而且离我们很近，所以人们根本不会将其视为隐私问题。

这个领域的发展确实非常迅速。甚至明天可能会有更自然的事情出现

XMOS的Alex Craciun

“但是当您在房间中间放一个扬声器时，每个人都说’哦，它在听！” 是的，但是还不及（电话）！”

Connock认为，相关的，受信任的内容将成为语音被广泛接受的关键。一旦行业将销售推向用户的领先地位，就会出现问题，因此XMOS会确保它处于领先地位，并准备在出现这种情况时做出反应。

与命令相反，还有自然语言的问题。Alexa Skills非常方便，但与与另一个人交谈并不相同。XMOS的算法工程师正在努力使交互更加有机。

Connock说：“您需要感觉机器能理解您的情绪-就像它没有摩擦一样-然后它将起飞。”

这听起来像科幻小说，但Craciun说，这比我们想象的要近。她说：“我认为这已经在发生。” “我们看到了亚马逊的许多发展；每个月都会有新的消息可供您阅读。因此，该领域的发展确实非常迅速。甚至有可能明天会出现更自然的事情。”

就爱折腾 | 92maker.com

标签