语音识别的未来:认识您的AI控制的“数字孪生”

作者 donggua

2020-12-02 其他 无评论 脚印:

亚马逊回声点

这是一篇重新发布的文章,我们从TechRadar Originals套件中将其选为去年的最爱之一。

语音是与设备进行交互的一种自然方式,而不是按动按钮和屏幕。近年来,语音技术已迅速普及,如今,语音支持的数字助理已集成到几乎所有可以想象到的家用设备中。

XMOS等公司的工作使这种增长成为可能。该名称可能并不立即为人所熟悉,但是如果您曾经使用过支持Alexa的设备,那么您就可以从其技术中受益。

XMOS是一家无晶圆厂半导体公司,专门从事语音处理。它的算法能够检测整个房间中的轻声语音命令,即使在挑战性的条件下(例如表面坚硬的房间)。那么为什么声音如此迅速地发出呢?

“我认为这使生活变得更轻松,” XMOS算法工程师Alex Craciun说。“您不需要那么多电缆和复杂的说明就可以了。您可以只给出命令,设备即可进行自我调整,也可以告诉您所需的内容。这样容易得多。”

企业营销总监Esther Connock补充说:“我为父母提供IT支持,我们认为声音将结束,因为您的技术将告诉您它的工作原理。” “它不需要遥控器。它不需要附带说明手册–您只需以一种非常自然的对话方式与之交谈,这对我们来说使技术民主化,因为您无需学习如何使用它。您不需要掌握知识。

“因此,如果您想到的是识字率低或教育水平低的人,突然之间就会有一个更加开放的竞争环境。社会中的弱势群体可以利用技术并减少孤立感。因此对我们来说,声音是世界上最自然的事物。”

很好聊

XMOS是布里斯托尔科技产业蓬勃发展的一部分,该市的新兴技术来自该市的两所大学,其中还包括Ultrahaptics(使用超声在空中产生触摸感),Reach Robotics(Mekamon增强现实机器人的创建者)和Graphcore(从XMOS衍生出来)。

ESTHER CONNOCK,XMOS

它的语音检测和隔离技术包括波束成形(当人们在房间中移动并跟踪麦克风时跟踪声音),回声消除(将用户的声音与设备本身播放的声音分开),混响(补偿) (用于回声),噪声抑制,插入(当检测到设备的唤醒词时停止音频播放)以及固定或自动增益控制(确保电话会议中的所有声音都能听到相同的音量,而不管声音有多大)。人在说话)。

该公司成立于2005年,以布里斯托大学的研究为基础。Connock解释说:“他们开发了一种微控制器,该微控制器可以执行大量处理,具有强大功能和功能,并且可以同时执行许多任务。”

苹果在2008年决定取消FireWire端口的决定为USB音频打开了市场,XMOS在其中找到了定位。该公司进行了多元化发展,不仅为Harmon Kardon和Yamaha这样的大型公司服务,而且还为拥有混合调音台的DJ服务,然后才转向多声道音频。 

“使用具有强大处理能力的电路板,我们可以生产多达32个通道的输出,因此我们可以获得出色的多通道音频,” Connock解释说。“声音和音频的专业知识使我们开始发出声音。我们的一位客户说:“凭借您的所有专业知识,您应该考虑使用麦克风并捕捉声音。” 这正是我们所做的。”

对我们来说[语音]使技术民主化,因为您无需学习如何使用它

Esther Connock,XMOS

2017年,XMOS的远场语音接口获得了Amazon认证。“我们仍然是他们在立体声解决方案方面的唯一合格合作伙伴,因此对于开发电视,条形音箱和机顶盒并以真实立体声进行工作的任何人,我们都是唯一可以立体声消除声音的提供商,” Connock说。“这对我们来说确实很重要,这也是我们今年在CES上大力关注的事情。但是我们也刚刚获得百度的资格,这非常令人兴奋,并且我们也在与NTT Docomo进行一些合作。我们正在整个地区扩展。”

出门在外

XMOS当前专注于房间边缘语音应用,但它也在研究其他领域,包括车内接口。

Connock表示:“我们在波士顿开发的技术–声音源分离,可以在对话中提取多种声音–确实适用于汽车。” “因此,如果您可以想象我可以和您通电话,而我正在开车,那么它将去除您可以听到的除了我的声音以外的所有内容。孩子们可能在背后大喊大叫,他们可以播放正在播放的电影,而您所得到的只是我的声音。”

该公司对语音的未来也有一个有趣的预测:作为个人助理(在可穿戴式智能手机中),它将坐在我们和当前提供语音识别服务的大公司之间。

“如果我看一下亚马逊和谷歌(以及某种程度上苹果公司的苹果音乐),他们会有偏见,因为他们试图向我们出售东西。我爱亚马逊,因为我卖给我东西,但我不想要语音垃圾邮件,而在发生的那一刻,人们将不再使用语音。” Connock解释说。

该解决方案将是一种中间层,可以过滤掉所有垃圾邮件,并为您提供内容最相关的服务(它将根据您的偏好进行学习)。

您的数字双胞胎

这不仅仅是一种理论-XMOS已经开始进行对话以实现它。“这将很快发生,” Connock说,“因此,我们正在寻找合作,建立,购买以创建该生态系统的机会。因此,其中有很多–我们知道今天有很多人在该领域开展业务。它是开放的,已经准备就绪,我们想利用它。

它不仅会学习我的音乐偏好,还会学习我的所有偏好

Esther Connock,XMOS

根据Connock的说法,这将导致创建“数字双胞胎”-她承认这个词听起来有些微词,但很有用。它会学习并适应您的使用方式。例如,它可以得知您不希望它与您说话,除非您先讲话。

“它将不仅学习我的音乐偏好,而且学习我的所有偏好。当我想被打扰时,我会优先与我的朋友聊天-一切。”

自然而言

但是,即使有了真正的私人助理来过滤掉任何垃圾邮件,语音识别仍然面临一些阻力。 

“当您查看时,” Connock拿起她的智能手机时说,“它一直都在,它有一个摄像头,它总是能听到您的声音,有传感器,它收集了很多数据,您将所有内容输入其中,而且由于我们已经习惯并依赖它,而且离我们很近,所以人们根本不会将其视为隐私问题。

这个领域的发展确实非常迅速。甚至明天可能会有更自然的事情出现

XMOS的Alex Craciun

“但是当您在房间中间放一个扬声器时,每个人都说’哦,它在听!” 是的,但是还不及(电话)!”

Connock认为,相关的,受信任的内容将成为语音被广泛接受的关键。一旦行业将销售推向用户的领先地位,就会出现问题,因此XMOS会确保它处于领先地位,并准备在出现这种情况时做出反应。

与命令相反,还有自然语言的问题。Alexa Skills非常方便,但与与另一个人交谈并不相同。XMOS的算法工程师正在努力使交互更加有机。 

Connock说:“您需要感觉机器能理解您的情绪-就像它没有摩擦一样-然后它将起飞。”

这听起来像科幻小说,但Craciun说,这比我们想象的要近。她说:“我认为这已经在发生。” “我们看到了亚马逊的许多发展;每个月都会有新的消息可供您阅读。因此,该领域的发展确实非常迅速。甚至有可能明天会出现更自然的事情。”

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注