中新经纬4月21日电 (郑铮)“先证实一个传闻——我们刚完成B轮融资,由小米战投领投。”4月21日下午,公司创始人、CEO王潜在北京自变量机器人发布会现场表示,他补充道:“感谢雷总(雷军)和小米的认可。”
发布会现场
这场名为“一个家庭成员的诞生”的发布会,没有机器人在舞台上表演后空翻、跳街舞、写毛笔字,王潜直言:“那些都是预设轨迹的命令行机器人,每一个动作都预先编程或遥控操作。”
自变量机器人创始人、CEO王潜
“早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。”王潜描述了这样一个场景并表示,“目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成上述场景中的综合整理任务。”他和团队所做的,是把机器人送进最复杂的真实家庭。
尽管近期互联网大厂纷纷入局机器人赛道,资本热度看似高涨,王潜却有不同的看法,“我觉得某种意义上它是过冷的。”王潜在接受采访时表示,相比于几年前的自动驾驶或移动互联网,具身智能这个级别的赛道,目前的资本热度并没有达到它应有的程度。
王潜给出了一组数据支撑这一判断:历史上,家务劳动占GDP的比重约为20%。“人类每天花1-2小时做家务,这占据了工作时间的四分之一到五分之一。”在他看来,家务劳动背后有巨大的经济价值。
公司联合创始人兼CTO王昊在现场分享了团队的真实经历,此前自变量与58同城合作,将机器人送入真实家庭与保洁阿姨协同作业,这些部署让他们发现:VLA架构(视觉-语言-动作)有“天花板”——三个模块独立拼接,数据在这三个模块之间逐级传递,每经过一次模块边界就会发生信息损耗和延迟。
更根本的问题在于,VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。“它不理解杯子为什么会掉,不理解为什么盘子悬在桌边需要推回去。它只是在重复见过的东西。”王昊说。
新一代模型WALL-B采用“世界统一模型”架构,将视觉、语言、动作、物理预测放在同一个网络中联合训练。王昊打了个比方:它看到杯子的同时就已经在准备伸手,感觉到重量的同时就已经在调整力度。
数据策略也发生了根本转变。王昊将实验室数据比作“糖水数据”——干净、可控、量大,但与真实世界差距显著。自变量选择的是“牛奶数据”:真实家庭环境中采集的嘈杂、多变、充满随机性的数据。团队进入了数百个志愿者的真实家庭,每一户的布局、灯光、混乱程度各不相同。
“家庭里没有特别高频的需求,但你有很多小需求——摆鞋子、叠衣服、铲猫砂、遛狗、逗猫。”王昊在接受采访时表示,“这些小需求合在一起,就是每天必须干的事。大家可能不再以保姆的身份去看它,因为保姆还是很专职,更多要将它看做成一个家庭助手。过去从来没有一个机器人能干多件事情。”
发布会上,王潜宣布,35天后,即5月25日,搭载WALL-B模型的新一代机器人将正式入驻首批真实家庭。
王潜也承认,当前模型仍是“实习生”阶段——会犯错,需要远程协助,可能把拖鞋放到厨房,擦桌子擦到一半停下来“思考”。但它的优势是24小时不间断工作,每工作一天都会因新数据而变得更聪明。(中新经纬APP)