唇部同步机器人越来越靠近不可思议的山谷©Carl Strathearn

唇部同步机器人越一步越一步到穿过不可变的山谷

研究人员使用了语音合成,机器学习和3D打印技术的组合来创建一个机器人,可准确地仿真人钳口,嘴唇和舌头的自然运动。

博士斯特拉斯坦博士是在爱丁堡纳皮尔大学计算学院的研究员谈到BBC科学集中委托编辑Jason Goodyer关于他对现实人形机器人的研究。

广告

什么是不可思议的山谷?

不可思议的山谷是人形机器人和CGI角色开始给我们一个令人毛骨悚然的感觉。而这是因为它们不是人类的完美陈述 - 他们从未到达那里。所以,他们发出了这些恐怖,不安和不友好的感受。

从出生来看,我们可以检测和分析面孔。并面临在我们的沟通中发挥如此重要的部分。当我们开始看到不应该在那里的事情时,事情就是不合适的,我们确实会得到那种排斥的感觉。它不仅仅是外观,也是在功能上。机器人搬家的方式说。如果机器人不会移动我们预期的方式,那么再次给出了不自然和不安的感觉。

机器人头部是使用CAD设计的,然后设计了3D印刷品©Carl Strathearn
机器人头部是使用CAD设计的,然后设计了3D印刷品©Carl Strathearn

您的工作侧重于匹配面部运动来演讲。为什么这在这个中发挥了如此重要的作用?

在不可思议的山谷定理中的两个关键区域是眼睛和嘴巴。当我们沟通时,我们的注意力在眼睛和嘴巴之间。我们看着眼睛得到关注,我们看着言语阅读,以便理解。随着机器人,特别是在自然唇部运动范围之外的任何东西,对我们来说可能会令人困惑和迷失方向。特别是如果
你在一定的时间内互动。

该项目是如何开始的?

当我第一次在进行这个项目时,我实际上是帮助在动画部门教学,因为前一所大学我没有得到机器人部门。所以这就是这些想法开始融合的地方。他们使用像一个名为Oculus这样的程序,这些程序基本上参加语音并转换为具有唇部位置的CGI口。

因此,它会自动读取语音并提取嘴部位的[用于形成特定声音的唇形],并且我想用机器人这样做。因此,我创建了一个在人嘴上建模的机器人嘴。

但在我这样做之前,我看着以前的机器人口感系统来看看缺少的东西。这真的很重要只是为了能够看到关键的肌肉是什么,肌肉在一起的工作,可以遗漏什么。

显然,这是一个非常小的区域,你被限制在你实际放入机器人的嘴里。我发现缺失的关键事情之一是叫做Buccinator肌肉的东西,这是口腔角落的肌肉 - 而不是脸颊肌肉,当我们营造元音和辅音声音时,它们被用来追求和拉伸嘴唇。所以,我复制了这些肌肉,我创造了一个机器人口原型。

阅读有关机器人的更多信息:

软件部分进来的地方?

我认为,'对,下一阶段是创造一个可以采取这些唇部形状并将它们放入这个机器人口中的应用程序。'所以,我们使用了一个称为Viseme图表的东西。这是在游戏设计中为CGI使用的东西 - 基本上它是一个声音列表和匹配的嘴巴形状 - 我让我的机器人制作这些形状。对于每种声音 - AHS,RS和OOS - 我拥有所有这些机器人口处。我收集并将它们保存到配置文件中,以便我以后能够将它们带出并使用它们。

下一个部分正在创建一个可以处理语音的系统[不仅仅是纯粹的简单声音]。但我想做它的生活,所以没有处理时间的余地,因为如果你使用处理时间,那么语音变得不自然,因为在对话中有很多巨大的暂停。因此,我创建了一种机器学习算法来参加语音合成,这是您在SIRI上的机器人语音,从笔记本电脑中脱离了一台微处理器,将音频数据转换回数值数据。其中一部分也进入了一个处理系统,所以我实际上可以看到你在录音工作室看到的声波。

你能告诉我更多关于系统如何运作的信息吗?

我创建了一种机器学习算法,可以识别传入语音中的模式。这不是通过监视语音本身的方式,但是波形中的模式。所以,你正在查看像素大小,每个单词和每个声音的长度,然后喂养系统一堆样本。

这样它就知道它正在寻找什么。当它遇到[它熟悉的声音]时,它能够转换机器人口系统以匹配我在图表上匹配的位置。这令人惊讶地工作得很好。

接下来的是我称之为语音图案化系统,它适用于音节。显然,当你说话时,你的下颚随着音节向上和向下移动。所以,这是创造这个图案系统的下一阶段,这意味着如果没有声音,嘴巴被关闭,而且声音响亮,较宽的嘴巴。

Carl Strathearn博士和机器人头©Carl Strathearn
Carl Strathearn博士和机器人头©Carl Strathearn

你是如何选择机器人的外表的?

嗯,实际上有两个机器人在实验中 - 一个旧的一个和一个看起来更年轻的一个。年轻的机器人并没有得到关注,因为我认为旧机器人看起来更加现实。但我以一个是另一个年轻版本的想法制作了他们。所以,你有同样的机器人。

我想比较人们如何与旧的机器人和年轻的机器人互动。我发现的是,年轻人更喜欢与年轻机器人和老年人互动,更喜欢与其他旧的机器人互动。

我也给了他们个性。我想,好吧,我很年轻,所以我会把年轻个性归结在自己身上。而且我知道我的爸爸很好,他有点古老,所以我在他身上建模了老了。我有年轻的机器人对我对我感兴趣的东西感兴趣,而旧的人对斯诺克和约翰史密斯感兴趣。

那么,这种类型的工作潜在的应用是什么?

我总是将Star Trek的数据作为这一点的完美榜样,因为他在很多不同的事物之间的行为:人和外星人 - 显然没有说英语的外星人,所以他充当翻译。但他也充当船舶计算机和人之间的界面。

所以,人类对人类来说是非常困难的事情,他能够用简化的方式翻译这些信息 - 一种人类的方式,情绪,带有面部表情。这就是我认为这项技术最终将朝向。

广告

我们必须记住,并非每个人都可以有效地与技术进行互动。我们认为,我们非常特权,并已经使用技术并能够使用它。但是,世界上有很多人没有那个,所以创造像人形机器人的东西会让他们更自然地与技术集成。