从早稻田大学1972年研发的WABOT,到特斯拉2022年首秀的Optimus,人类科学家对人形机器人的研发走过了半个世纪。在这半个世纪里,人形机器人的发展已经从本田ASIMO、波士顿动力Atlas代表的技术验证期,过渡到了以特斯拉Optimus为代表的商业试水期,一个新的机器人时代正在开启。
为此,至顶科技特别策划推出《机器人新纪元》专题报道,旨在探寻全球机器人团队的技术变迁和创新故事。
本篇为《机器人新纪元》专题报道第二篇深度文章。
作者 | 金旺
栏目 | 机器人新纪元
2011年2月25日,美国航天史上发生了一件不大不小的事儿,这一天,NASA位于休斯敦的约翰逊航天中心研发的人形机器人Robonaut 2迎来了它的第一次太空旅行。
人类历史上第一个登上太空的宇航员人形机器人就此诞生。
宇航员人形机器人在太空中能做什么工作?
NASA研究员曾在一篇公开发表的论文中指出,Robonaut的研发和设计,是为了执行宇航员在空间站中需要执行的所有任务。
这些任务既包括在太空中开展的例如观察动植物生长的科学实验,也包括空间站紧急维修等工作。
由于人类在太空失重环境中会导致肌肉萎缩,因而宇航员在太空中执行任务时间往往不能超过6个月,某种意义上而言,空间站是一个更适合灵巧型机器人的工作环境,机器人,终将成为航空航天科技发展史上的重要一环。
2015年,在航天五院工作的张锐和团队一起完成了嫦娥五号某颗探月卫星项目后,当进行新的项目调研时,张锐意识到了宇航员人形机器人的挑战性和重要性,于是,他向院里提出建议:我们应该研发自己的宇航员人形机器人。
这一年,人形机器人依然是一项相当前沿的技术,尤其是宇航员人形机器人,我国当时还没有任何相关国家级项目立项,因而也就没有这方面的经费来支持相应科研院所的研究项目。
当时的张锐年轻气盛,无法忍受这种“人有我无”的窘境,尤其还是在自己专业领域内。
于是,张锐决心出走创业,做中国的宇航员人形机器人,命运的车轮,就此开始转动。
1、DARPA挑战赛与机器人的至暗时刻
2015年6月5日,美国洛杉矶东部一个名为Ponoma的小镇热闹非凡,一场名为DARPA Robotics Challenge(简称DRC)的机器人挑战赛在这一天迎来了总决赛,全球最顶尖的机器人团队纷纷涌入这一小镇,准备在这里大展拳脚。
作为全球机器人领域顶级赛事,这一年的DRC也是人形机器人技术一次阶段性的成果总结和展示,因而吸引了不少来自全球各地的媒体和观众。
DRC比赛之初,也有几个来自中国的机器人团队报名参赛,但出于各种原因,最终都没能出现在决赛现场,这导致中国机器人团队失去了一个与全球机器人顶级团队同台展示的机会。
不过,除了中国机器人产业,并没有多少人关注这件事儿,大家都把注意力放到了这场赛事中的人形机器人上。
2015年的人形机器人,就这样被展示在满怀期待的世人面前,然而,人们在这场大赛上看到的却是人形机器人的各种现场翻车事件。
现在回想起当时的场景,张锐依旧记忆犹新,“在上台阶、过独木桥、开门、上下车等基本动作中,这些人形机器人在现场不断摔跟头。”
当时的张锐刚刚涉足人形机器人领域,对人形机器人存在的问题还不甚了解,多年后,回想起当时的人形机器人,由于认为当时几乎所有多数人形机器人都是基于波士顿动力的动力学模型人形机器人,在视觉空间计算方面下得功夫很少并不具备视觉传感器和空间计算能力,感知与控制不精确、结合得不紧密,或许是机器人摔倒的主要原因。基于这种判断,张锐后来提出了机器人“运动脑”,让机器人不光形态仿人,行为、思维也要仿人。
例如在抓门把手时,机器人不知道抓没抓到,只能通过扭转门把手来尝试,而如果没有抓住门把手空转的话,就会因为没有受力支点而直接摔倒在地。
2015年的DRC将人形机器人最真实的一面展现在了世人面前,当时的人形机器人就像是一个丫丫学步的孩童,这击碎了大众对于人形机器人的幻想,再加上赛后媒体一边倒的声势,整个人形机器人行业由此也迎来了至暗时刻。
“当时新闻发出来,对全世界造成了一定的误导,”张锐告诉科技行者,“大家都开始觉得人形机器人没什么用,包括美国、欧洲不少原本在持续研究人形机器人的企业机构,在这一项目上投入的研发资源也开始减少。”
不过,在这一年创业做人形机器人的张锐,并没有受到媒体报道的影响,在分析了这次大赛中的人形机器人后,他发现了两个问题:
第一,大赛上的人形机器人已经具备了一定的自平衡能力,但是基于典型的路径规划算法,并没有加入力反馈和自平衡算法,在内部平衡系统上仍有很大的提升空间;
第二,大赛上的人形机器人都没有视觉反馈信息,不具备空间计算能力。
这两个问题背后同样是两个机会,它们构成了张锐和他的团队研发人形机器人的目标和初步设想,也让他们从一开始就放弃了走波士顿动力的经典路线,坚定了他们要走出一条自己新路线的想法。
2、两年三代机器人,对标本田阿西莫
和国内大多数机器人团队不同的是,张锐创业之初就是奔着人形机器人去的,2015年,张锐一边筹备团队,一边创立公司,一边做着第一代人形机器人的整体规划。
由于张锐本就是自动化专业出身,大学毕业后,又先后在北航机器人所、中科院自动化所、航天五院有过几年从业经验,因而早期核心技术团队,大都出自这些原本就是国内机器人的顶级研究机构。
在研发第一代人形机器人之前,张锐是先对人形机器人进行了整体技术方案规划,这对于先后在北航机器人所做过嵌入式技术、在中科院自动化所做过姿态算法和自平衡技术、在航天五院做过系统工程,已经训练出很好的系统化思维的他来说,并没有感觉很吃力,反而有些得心应手。
在做完整体技术方案规划后,他又将这些技术一一拆解出来,以此来判断,要完成自己的技术构想,还需要哪些专业人才。于是,张锐一边这样做着技术拆解,一边进行人员招聘。
实际上,直到着手研发第一代人形机器人时,张锐的团队也不到10人,不过,这对于当时的他们来说,还算够用。
2015年的中国机器人市场,仍以工业机器人为主流,市面上还没有什么可以参考的人形机器人产品方案。因而,作为国内最早做人形机器人的团队,张锐为钢铁侠科技规划的第一代产品只规划了双足,并没有做双臂和头部。
张锐告诉科技行者,“人形机器人最关键的就是双足,一般来讲,看一个团队的人形机器人是不是自己做的最直接的方法就是看他们第一代人形机器人是做的双足,还是完整的人形机器人,如果第一代直接做了完整的人形机器人,很可能是贴牌或基于某个原型机做的改造。”
钢铁侠科技第一代人形机器人在2016年3月正式面世,当时他们还为这个90cm高、拥有12个自由度的双足机器人的腰部配备了一个30公斤的质块,用以模拟上肢和头部的重量,通过这一代机器人,张锐和他的团队完成了双足部分的技术验证。
与此同时,第二代完整人形机器人的研发工作这时已经紧锣密鼓地悄然展开,而在第二代人形机器人研发过程中,张锐有了一个大胆的技术构想。
2016年,软银计划以320亿美元收购ARM,英特尔开始在全球收购AI芯片团队,深度学习刚刚爬上风口,如果放在几年后来看,这一年称得上是人工智能初启灵智的一年,但在当时,能够给机器人提供算力的芯片,算力依然十分有限。
张锐在研发完第一代人形机器人时,就意识到了算力将会是接下来产品研发过程中不得不重点考虑的问题,如果再加上双臂、加上更多自由度和功能设计的话,当时市面上主流处理器拥有的算力根本无法满足人形机器人的系统性需求。
张锐当时认为,人形机器人需要两套传感系统,一套对内,一套对外:
基于这样的设计思路,张锐在第二代人形机器人的自研控制器中,引入了双处理器结构,实现了内外两套传感系统的独立控制。
更为关键的是,在这一代人形机器人中,张锐还提升了核心零部件的自研占比,包括控制器、电机驱动器、姿态传感器等零部件的自研比例,都在这一代机器人中得到了极大的提升。
如果核心零部件完全依靠外部采购,仅仅是控制器、减速器、伺服电机三大核心零部件,在机器人产品最终成本占比就高达70%,张锐告诉科技行者,“我们自创业以来就很关注核心零部件的自研,像控制器、姿态传感器,国外好一点的一个就要大几万,核心零部件自研为我们省下了不少成本。”
据张锐透露,钢铁侠科技人形机器人的早期外部采购硬件成本占比在40%左右,现在大约只占到30%左右。
双处理器结构,再加上自研核心零部件,让这代机器人不仅在成本上得到了很好的控制,也让钢铁侠科技的第二代人形机器人的自由度从12个增加到了26个,能够实现双足行走、上下台阶等基本动作。
不过,这还不是钢铁侠科技人形机器人的完整版本,真正钢铁侠科技的完整版本,是在半年后发布的第三代人形机器人。
2017年8月,在WRC 2017上,钢铁侠三代人形机器人同台展出,瞬间燃爆全场,钢铁侠第三代人形机器人不仅在现场表演了行走、倒水、递话筒、上下台阶等动作能力,接待了两位国家副总理,还在现场实现了连续一周的无故障表演。
“其实我们第三代人形机器人对标的是本田的阿西莫(ASIMO),当时阿西莫能实现的功能,我们已经都能实现。”张锐告诉科技行者,“而连续一周无故障表演,即便对于今天的人形机器人而言,依旧是一项很难达到的指标。”
3、在2017年做商业化
2018年6月28日,这一天,日本NHK电视台播报了一则重磅新闻:
日本本田公司于2000年立项的人形机器人ASIMO,已经停止研发工作,并解散了开发团队。
本田ASIMO和波士顿动力Atlas齐名,作为全球人形机器人的顶级明星项目,一直受到全球瞩目,ASIMO之于人形机器人,有堪比特斯拉之于电动汽车的影响力。
这一团队的解散,震惊了整个行业,甚至让不少人对人形机器人的价值和意义再次产生了怀疑。
ASIMO研发团队的解散,同样引起了张锐和他的团队的关注,不过,张锐认为,这样的调整,对于本田而言是一次回归,而非撤退。
作为曾经对标本田ASIMO的人形机器人团队,张锐曾专程到日本拜访过本田ASIMO团队,也了解到了ASIMO之于本田的意义。
原来,本田当初成立ASIMO团队,是为了让它代表本田公司最高技术,意在打造自身在产业中的高科技品牌形象——人形机器人都能做好,汽车自然也就不在话下,这样也就能让本田卖出更多汽车。
不过,本田还是把这件事儿想简单了。
后来的事实证明,独立出来这样一个人形机器人团队,由于在技术上没有与其他产品团队形成联动,对于整个公司产生的实际价值极为有限,这也就导致了2018年ASIMO团队的解散。
从某种意义上而言,ASIMO团队并没有解散,本田是将这些人分散到了其他部门中参与产品和设计工作,这样就可以把人形机器人的技术复用到其他产品中。
张锐认为,这样的思路更符合一个商业公司的商业逻辑。
实际上,钢铁侠科技早在2017年完成第三代人形机器人研发,正式进入商业化时,就做出了和阿西莫同样的选择。
2017年年底,钢铁侠科技进行了公司成立以来规模最大的一次组织架构调整,彼时,钢铁侠科技前期搭建起来的研发团队开始按技术分工分为硬件、软件、控制、算法等团队,这些团队会根据项目需求,被抽调到不同商业化项目团队中。
钢铁侠科技的人形机器人,也自这一年开始,逐渐出现在了国内高校实验室、科研院所中,与此同时,张锐也开始将在人形机器人研发过程中积累下来的技术复用到其它机器人产品中。
例如,机器人线控底盘。
2018年在与清华大学合作的国家课题中,钢铁侠科技开始涉足线控底盘领域,在做这一项目时,张锐想到了德国的博世。
博世是全球线控底盘领域的巨头公司,如今已经成为全球顶级的一级汽车供应商,想到国内也应该有一家这样的线控底盘公司,张锐就将这条产品线一直延续了下来,如今已经成为钢铁侠科技的一条现金流业务。
据张锐透露,今年钢铁侠科技由于拿下了一个基于线控底盘的项目,项目金额达到亿级,因而线控底盘业务在今年公司整体营收占比中将会过半。
而在人形机器人商业化项目中,让张锐记忆最深的,则是在2019年中标的中国宇航员人形机器人项目。
4、第二项建议:定义统一通信网络
2019年8月27日,俄罗斯宇航局首个宇航员人形机器人进入太空,并开始在国际空间站中开展人形机器人的试验工作,俄罗斯成为继美国第二个将宇航员人形机器人送到了国际空间站中的国家。
也是在这一年,中国宇航员人形机器人项目正式立项,而这时,国内已经有了几家技术实力还不错的市场化人形机器人团队,钢铁侠科技就是其中一家。
2020年,国家航天局将研发宇航员人形机器人的任务交到了航天五院,航天五院最终选择联合国内有人形机器人经验的团队进行这一项目的技术攻关和产品研发,当时包括北航、清华、上海交大、国防科技大学、钢铁侠科技、优必选科技等团队都参与了这次技术方案论证。
由于是国家首个宇航员人形机器人科研项目,航天五院对机器人性能、舱外移动和舱外执行任务等功能做出严格要求,最终经过5轮技术方案论证,钢铁侠科技成为独家担纲中国宇航员人形机器人这一项目的主力团队。
就在四年前,张锐向所在单位航天五院提出做宇航员人形机器人建议时,或许不会想到,四年后的他,会通过一个市场化的技术团队,来完成当时自己提出的这一产品构想。
过去四年里,钢铁侠科技人形机器人研发过程中的另一项技术突破,同样源于四年前的一次“谏言”,也同样成为拿下这次宇航员人形机器人项目的关键。
2015年,就在张锐“上书谏言”航天五院做宇航员人形机器人时,还提出了另一个构想——整改卫星通信系统,做一个统一的计算机网络拓扑结构。
当时的这一构想,同样由于种种原因未能通过项目审批。
不过,在创业做人形机器人后,张锐没有忘记当时自己的这一构想,从研发第一代人形机器人时,他就和团队开始自己设计硬件接口,自己定义通信协议,并将所有通信接口和通信协议归集到自研的控制器中,从而构建统一的拓扑结构。
在第一代人形机器人上进行整体拓扑结构归一设计时,张锐只是借鉴之前在航天领域的科研经验教训,觉得这样的设计有利于人形机器人系统的可控性和稳定性,当时两年三代人形机器人的研发节奏,也让他们无暇为这一技术取一个像样的名字,直到在研发第三代人形机器人时,团队进一步拓展了这一通信网络的边界,这项技术才第一次有了自己的名字。
2017年1月,钢铁侠科技第二代人形机器人问世,随之而来的是第三代人形机器人设计规划开始提上日程。
在做第三代人形机器人规划时,一个尤为关键的核心技术指标,是机器人整机控制频率的提升。
张锐发现,如果基于之前的通信技术方案,机器人的整机控制频率也将会被限制在当时行业基本水平,为了避免这样的结果,他向团队提出,“我们要设计完全属于自己的通信网络,让机器人整机控制频率能够受我们自己的控制。”
完全定义一套硬件接口和通信接口协议规范,这样的工作量是不可想象的,好在团队自研发第一代人形机器人以来积累下的经验,让他们得以在这一年的第三代人形机器人上完成了整套通信网络的构建,也是在这一年,这套通信网络有了自己的名字——ARTNET。
时间拨回到2020年,这一年,在宇航员人形机器人项目竞标时,同样对通信系统提出了严格要求,而钢铁侠科技是参与这一项目竞标中通信系统设计最完备的人形机器人团队。
张锐告诉科技行者,“实际上,这一年我受国家相关部门航天五院委托,起草了我们国家航天卫星系统的通信协议标准。”
5、机器人要智能化,但改变格局的不会是大模型
2023年,通用人工智能大模型的出现,让人形机器人市场再次兴奋起来,尤其是大模型表现出的泛化能力,让不少机器人团队看到了人形机器人快速发展的希望。
钢铁侠科技是在2022年的一个项目中接触到的这类技术,也是从那时起,他们开始将强化学习技术应用到了机器人上。
不过,张锐并不认为大模型会对人形机器人产业带来什么颠覆性。
张锐认为,大模型要想在人形机器人上发挥出魔力,至少要满足一个基础条件:数学模型与物理模型之间的统一。
2018年,DeepMind推出了一个名为Control Suite的仿真套件,在这一仿真环境中,人形机器人可以跑步、跳跃、匍匐前进,可以完成各种人类想让它完成的工作,然而即便是波士顿动力,也无法将这一仿真模型应用到人形机器人上。
其中问题,正是在于数学模型和物理模型无法实现统一。
仿真环境没有约束条件,所有电机都被视为可以快速响应,所有关节都能跟上算法的规划,不过,真实设备工作环境并非如此。
以减速器为例,每个减速器都有一个额定减速比(例如1:50),然而,减速器本身实际上是一个非线性设备,并不能100%以额定减速比进行工作,而这直接导致了最终人形机器人动作执行的精准度。
“这个问题直接限制了目前人形机器人大规模推广应用,”张锐对此不无无奈,“即便是放到全球来看,现在依然没有很好的解决办法。”
因而,他认为大模型更多解决的是机器人的决策问题。
当下人工智能大模型可以处理问题分为两类:一类是语义分析,另一类是视觉识别。
钢铁侠科技实际上早在2018年就开始研究机器人智能化的方向,视觉识别就是其中一个主要方向,当时的钢铁侠科技组建了自己的空间计算团队,开始研究三维空间计算相关技术,并在2021年研发出了基于视觉智能的示教系统和体感遥控系统。
张锐告诉科技行者,“我们原有的技术路线是先通过视觉实现环境感知,然后通过控制器决策如何执行动作,大模型刚好相反,是先让机器人把一个物体抓起来,然后再通过感知系统辨别物体。”
他也指出,“即便大模型获得再大的技术突破,可能到了人形机器人演示阶段,仍然无法冲破仿真世界与真实世界之间存在多年的基础材料科学筑起的壁垒。”
基础材料科学构筑起的这道壁垒,也将会成为未来人形机器人软硬件技术之间一道难以逾越的鸿沟。
不过,对于人形机器人,张锐也并非一个悲观主义者,他有着自己的一套评判标准,他认为,人形机器人发展大致可以分为三个阶段:
第一阶段:原理样机阶段,大部分团队的第一款人形机器人都处于原理样机阶段;
第二阶段:控制阶段,能够让人形机器人做一些诸如跑、跳、上下台阶等动作的团队处于这一阶段;
第三阶段:应用阶段,能够真正将人形机器人应用在实际场景中的团队。
在张锐看来,全球已经进入应用阶段的,目前只有三个团队,“一个是美国宇航局,一个是俄罗斯宇航局,还有一个是我们。”
好文章,需要你的鼓励
到2030年,智能互联设备的数量将突破500亿台。所有这些智能设备将通过蓝牙、Wi-Fi或5G等方式互联。
在当下的AI竞争格局下,没什么能比一场AI浓度爆表的大会,更能快速彰显自身实力了,AMD的这场「Advancing AI大会」,就是印证。
在今年云栖大会主论坛上,作为压轴的人形机器人对话——《人形机器人的“图灵时刻”》最受关注,这不仅可以看作是人形机器人创业者们的心路历程,也是半个世纪人形机器人产业发展的阶段性总结。