财经那些事2026年01月12日 18:10消息,自变量机器人获美团、阿里云、字节联合投资,实现全程自主无人配送。
1月12日,21世纪经济报道记者获悉,具身智能企业自变量科技正式完成十亿元人民币A++轮融资。本轮融资由字节跳动、红杉中国、深创投、北京信息产业发展基金、锡创投、南山战新投等多家头部投资机构及多元化地方产业平台联合出资,阵容覆盖国家级引导基金、一线市场化VC/PE以及具有产业落地能力的区域国资平台,凸显出资本市场对具身智能商业化路径的高度共识与战略级押注。

值得注意的是,自变量在过往融资中已引入美团、阿里云等产业资本——此次字节跳动的加入,标志着国内一级市场罕见地出现三家互联网大厂(美团、阿里、字节)共同布局同一具身智能标的的局面。这不仅反映出头部科技公司对“AI+物理世界执行”这一终局赛道的紧迫共识,更意味着具身智能已从技术验证阶段加速迈入产业协同攻坚期。三家大厂的交叉站队,本质上是对“端到端具身大模型能否真正接管非结构化环境操作”这一关键命题的集体背书。
就在融资消息公布同期,自变量首次对外公开其首个基于VLA(视觉-语言-动作)端到端大模型的实机配送视频。视频中,“量子1号”机器人在无任何人工干预的前提下,于真实开放城市环境中独立完成外卖“最后100米”全流程配送——从室外取件、拆包、折叠纸箱回收,到穿越玻璃门、自主乘梯、应对镜面反光干扰、精准抵达室内目标点位。这是全球范围内首个在连续、跨域(室外→室内)、多模态交互场景下,完全依赖单一VLA端到端模型驱动实现移动+操作闭环的公开实证案例,具有里程碑意义。
尤为值得强调的是取件环节的技术突破:机器人需识别粘贴魔术贴的非标纸箱,以双臂协同完成柔性抓取与力控拆封,再将立体纸箱动态折叠至仅7cm高的狭窄回收口。这一动作看似简单,实则融合了三维空间理解、接触力学建模、实时力位混合控制与长程动作规划——它不再是传统机器人编程可覆盖的确定性任务,而是端到端模型对物理世界“常识性操作”的自主涌现。这种能力无法靠规则堆砌,只能来自真机数据驱动下的具身认知进化。
而电梯环节的处理,则直击行业长期痛点:面对玻璃门反射导致的激光/深度传感器失效、电梯面板文字识别与状态推理、多轿厢场景下的动态决策(判断哪侧门先开、是否进入)、镜面环境中屏幕按键的鲁棒识别……这些曾被业内视为“必须靠预设逻辑+大量人工调试”的长尾难题,在WALL-A模型驱动下,全部通过感知-推理-动作的统一表征自然解决。这说明,真正的具身智能不是“把AI装进机器人”,而是让机器人成为AI在物理世界的延伸器官。
自变量所坚持的“全自研端到端具身大模型”技术路线,在此番实证中得到强力验证。其自研「WALL-A」模型并非简单叠加视觉、语言与动作模块,而是将VLA能力与世界模型(World Model)深度融合,使机器人不仅能理解指令、看见环境,更能构建动态物理因果推演——例如预判纸箱折叠后的形变轨迹、估算玻璃反射造成的感知偏差边界、模拟电梯按钮按压所需力度与角度。这种“可推演的具身智能”,才是跨越实验室与真实世界鸿沟的核心钥匙。
支撑模型快速进化的,是自变量在国内率先构建的“硬件-数据-模型”正向闭环:其规模化真机数据采集起步早、密度高,数据管线以模型需求为原点反向定义;通过大规模真机强化学习,基础模型持续在真实物理交互中获取高质量经验,主动发现并解决长尾场景问题。这种“用世界训练世界模型”的范式,比纯仿真训练更具泛化效力,也解释了为何其机器人能在未见过的玻璃门、新型电梯面板等环境下依然稳定运行。
更深层次的壁垒在于全栈自研的硬件协同能力。自变量从模型算法出发,深度定义机械臂构型、关节模组参数、动力驱动响应曲线乃至主控制器实时调度逻辑,并实现软硬算法级耦合。这种“为模型而生”的硬件哲学,不仅规避了通用硬件适配带来的性能损耗,更显著压降整机成本——当一台具备同等操作能力的具身机器人成本从百万元级降至数十万元量级,规模化量产与商业渗透才真正具备现实基础。这不仅是技术胜利,更是中国企业在智能硬件底层定义权上的一次实质性突围。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!