kexueren07的个人博客分享 http://blog.sciencenet.cn/u/kexueren07

博文

人形机器人的生产力时代

已有 2451 次阅读 2026-5-21 09:17 |系统分类:科普集锦

人形机器人已步入生产力时代,具身智能技术已成为重要推动引擎。近期,北京大学计算机学院前沿计算研究中心研究员、银河通用创始人兼CTO王鹤博士作客上海科技大学“科技创业大讲堂”,为师生们做主题为“人形机器人的生产力时代”的讲座,系统介绍了具身智能机器人的国内外趋势、全栈技术体系和虚实融合的具身智能基座大模型新范式、前沿应用与产业实践案例。

波士顿动力为何至今未真正实现商业化?

王鹤介绍,早在20世纪60年代,日本就开始研究人形机器人,美国的波士顿动力在21世纪初推出的Atlas机器人身上,就已经实现了一系列高难度动作的能力。今天的人形机器人跟过去的人形机器人最大的区别在于现在是用具身智能来驱动人形机器人,而过去是用传统的控制方法,比如机器人在一个场景里踏的每一步、走的每一个位置,都是提前决定好的。所以当场景变化的时候,人形机器人就无法再沿着预定的轨迹走了。沿着预定的轨迹走用的是传统控制里面的模型预测控制,这也是导致波士顿动力公司创立已有几十年却至今仍未真正实现商业化的原因。2025年,波士顿动力的CEO到访银河通用时,亲口承认其旗下的人形机器人没有真正卖出过一台。原因就是这种人形机器人依靠的不是真正的智能,而是一种人类编写的轨迹加上控制,它没有真正的泛化性,也没有真正可以通用的干活能力,因而使用条件非常苛刻,当场景或任务发生变化时,就需要重新设计轨迹。     这两年大家关注的中国人形机器人开始做舞蹈等各种高难度的动作,或者像宇树机器人在一个物理仿真器里面进行大规模的走路学习,这是真实的具身智能,来源于具身智能的突破。当成千上万个人形机器人同时并行地在一个在奖励函数下探索如何能平稳地沿着指令方向移动,这样的技术比过去传统的需要大量人工调优的非线性控制器、包括人类写轨迹使用起来就要简单很多。这是人形机器人从雏形时代跃进到了运动时代,但它仍然依靠人类把一套动作提前编出来,然后用神经网络模型代替传统控制。这些人形机器人基本上都不需要视觉传感器,它们在整个运动过程中是闭眼的,不需要用视觉看肢体伸展到了什么位置就可以把舞蹈跳下来,这和人类不断地用眼睛看世界、根据物体在世界中的位置去操作物体、完成任务是很不一样的。所以可以笼统地说,这些舞蹈、跑步、运动技能都属于小脑的飞跃,而不是真正人类意义上大、小脑一体的中枢神经运动控制。这样的能力打开了人形机器人的运动、演出时代,但还不足以使它们成为真正能干活的人形机器人。真正的人形机器人是让大模型作为人形机器人的脑,让具身智能通过视觉动作闭环的方式实现机器人自主干活。

齐全的硬件供应链是中国具身智能行业倚仗的一个要素

由北京大学孵化的银河通用机器人公司持续推动着具身智能在工业、商业等真实场景中的规模化落地,今年银河通用的人形机器人登上了春晚,展示的就是人形机器人通过大脑实现的眼、脑、身的协同控制。王鹤告诉大家,人手是人类的身体智能(或运动智能)真正区别于其他动物的部位。在所有的高级哺乳动物中,只有灵长目拥有人手这样的五指结构,而灵长目里只有人类的5根手指相互之间能达到这样的自由度和相关性,而且人类每根手指末端的皮肤触觉依靠一个长的锥状纤维直接突向脊髓,所以当手指碰到尖东西的时候,它的神经传导的反射时间非常短。其他动物虽然也有手,但是它们的触觉就没有人类的触觉这么灵敏。所以如果把人类的运动智能和身体智能与大自然界中其他的动物作对比,会发现人类的运动智能并不强在跑跳、武术、翻腾这些方面,而是我们拥有一双灵巧手,这双灵巧手有非常丰富的神经、非常高的自由度和解耦度,能够做各种灵巧的操作。银河通用的人形机器人在春晚上展示的盘核桃动作背后,正是灵巧手的高自由度强化学习能力。又比如玻璃碎片在桌面上的形状是非常不规则、随机的,银河通用机器人的视觉能够引导灵巧手准确地找到位置,把碎片抓起来放到框里;衣服是很不规则的、完全随机的一个形状,从哪儿把它蹬起来,摊平,甩平以后如何去折叠,这些也都是人类智能随机应变的体现。这些自主作业的智能是通过各种与人类的视觉、触觉功能相似的传感器去获得外部信号后进行闭环操作并保证不做错——比如竹签不会插歪了、夹子能稳稳地夹住、正确的用力不至于把物体夹扁也不至于使物体掉落……这些配合是机器人真实具身能力的高度展现,背后是具身大模型。

王鹤指出,中国非常齐全的硬件供应链是我国具身智能行业非常倚仗的一个要素,它使一个硬件产品迭代到可量产和长期稳定运行的时间可以达到全球最短。今天银河通用已经部署的人力机器人的干活能力实际来源于过去10到20年中国的机器人行业包括新能源车行业自动化给很多关键零部件、包括生产工艺都打下了一个很好的基础。

具身智能模型操作能力依然不足的原因

人工智能有数据、算力和模型三个要素。对于大模型而言,算力是如今“卡脖子”最深的,但是具身智能对算力的需求相对来说没有纯文大模型那么大,它“吃”的数据是最主要的。今天的具身智能领域,谁家的模型能力强,本质上说明其数据中涵盖的知识和各种动作任务全。这也是为什么银河通用从创业第一天就开始大力发展合成数据,而且今天同样大力发展无本体的数据(也就是不需要机器人硬件的数据)采集,因为这样的数据成体量以后,能够快速推动具身大模型的泛化性和统一性。

“可以认为,数据可能是以后具身智能公司的一个重要壁垒。当然,如果你只有数据,而你的硬件的良率量产达不了标,那么你可能会发现在客户场景三天两头被投诉设备又坏了,这也会让你的整个商业无法闭环。”王鹤表示,所以,今天一个好的机器人公司首先要能够量产高质量、可靠的机器人,这是很多互联网大厂不愿意干的;同时,它还要把握非常好的具身数据,这恰好也是互联网大公司里没有的。正因为这些重要的要素在今天非常有资金实力、人才实力的公司里不具备,才给了初创公司以机会。比如要一个小猫或小狗去学会如何把球给叼回来,它的世界模型跟人的世界模型肯定不一样。因为人会用手,而小狗的手天生是拿不了球的,这种硬件基础的不同决定了小猫、小狗和人的操作方式不一样。今天用人类的数据去训练沃尔玛的机器人也存在这个问题,就是人的各种感官自由度都超越了机器人,那么人能做不意味着机器人也能做,所以现阶段在没有足够机器人数据的时候,不得已使用了大量的人类数据,未来会在硬件上让机器人和人靠近,这样人的数据的价值就能越来越大。同时,也有大量的机器人干活的数据来训练机器人的世界模型,这是更好的数据。

人形机器人最终能达到的市场被预估会非常大,能达到手机的量,也就是人手一台。银河通用目前已落地了40平米面积的24小时人形机器人药房。现在也有人买了三D打印的机械臂给孩子,孩子遥操机械臂抓桌面上的物体,一边测试、训练,一边补数据进模型。“现在具身智能这些较软的应用越来越多,像打网球这件事,我们也希望人形机器人的网球陪练能够落地到运动市场。”王鹤说。但虽然目前已经有这么多多样化的数据,模型的操作能力依然不足。第一个原因是硬件现在很多方面没达到人类的感官,比如触觉、压觉、滑觉、正压力,甚至纹理感知这样高精的耐用性。人类的触觉神经在指尖这块非常密集,如果没有这些精细的传感器,现在的机器人在很多精细操作上就达到不了人类的上限,同时,因为没有相应的传感器,就要同时采集传感器的信号数据,而这些数据也还没跟上。所以,人形机器人的通用性是随着硬件接近人类的性能和数据大规模的采集向人类靠近的,当然,也有模型架构的问题,但是这两者从远期来看并不是制约,而是在前面的条件具备后都能摸索出来。

结合自身经历,王鹤向青年学子们表示,一个技术最终能产品化是对社会经济最直接的贡献,但是基础研究是源头,所以应杜绝无门槛的创业。“你可以以创业作为你的目标,但你一定要想明白在这一路上你积累了什么样的门槛和重要的壁垒让你做这件事以后,别人不能轻易和你做一样的事,而且你还能持续高水平地创新,这一点非常重要。”

 

 

 

 

 



https://blog.sciencenet.cn/blog-1341506-1535754.html

上一篇:用一家应用商店,整合AI产业链
下一篇:鸢尾花、梵高和娇兰香水



    
收藏 IP: 183.193.51.*| 热度|

5 郑永军 崔锦华 王涛 王三根 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-12 20:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部