免责声明:金色财经所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(jinse.com.cn) 举报

    数据飞轮还是重复样本?Physical AI 该告别「小时数崇拜」了

    曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg,在一篇题为《Moneyball for Physical AI》的文章中,把具身智能的数据竞赛比作棒球史上的「金球」时刻。

    他想挑战的是一个越来越常见的融资叙事:机器人公司只要堆更多遥操作、更多真实部署、更多运行小时,就能形成数据飞轮。对投资者来说,这不是学术口水战。具身智能公司的成本结构、商业化速度和模型壁垒,很多时候都被包装进「数据闭环」这四个字里。如果累计小时数并不等于有效模型进步,市场就需要重新看待这些公司的数据资产。

    「数据小时数」可能是机器人行业的打击率迷信

    Garg 借用了《Moneyball》的经典类比。2002 年奥克兰运动家队以联盟低薪资球队之一的阵容赢下 103 场比赛,关键不是买到更贵的球员,而是发现市场错估了球员价值。传统球探看重打击率、盗垒和姿势,但更能解释球队得分能力的指标,是上垒率。

    在他看来,Physical AI 也可能处在类似阶段。行业承认数据是通向通用机器人模型的必需品,却容易把最容易展示的指标当成最重要的指标:累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。

    机器人数据和文本数据的供给方式并不一样。大语言模型可以从互联网、代码库、书籍和网页中获得海量低成本文本,瓶颈更多来自算力、清洗和训练效率。机器人模型需要的是带有物理交互、动作反馈和环境变化的数据,每一小时有效数据都要被真实创造出来,背后对应设备、人力、场地、传感器、失败处理和安全成本。

    机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。更准确地说,当代大型视觉语言模型训练所消耗的文本和图像数据,如果折算成人类阅读或观看时间,约相当于 10 万年,而机器人缺少同等规模的真实交互数据。这个说法不是在给机器人模型设定精确门槛,而是在提醒行业:真实世界交互数据无法像网页文本一样被低成本抓取。

    这也是 Garg 反对「血汗工厂式遥操作」叙事的原因。大量人工遥操作确实能带来动作密集的训练样本,但如果公司只按总小时数评价数据,资金可能流向重复、低难度、低信息密度的样本,而不是最能降低失败率的场景。

    三类数据买到的东西并不一样

    在 Garg 的分类里,Physical AI 数据大致分为三类:观察数据、干预数据和部署数据。它们都可能有用,但成本、约束和信息密度差异很大。

    第一类是观察数据,比如第一人称或第三人称视频。它的优势是成本低、覆盖广,可以帮助模型理解物体、空间、动作结果和环境分布。短板也很清楚:模型能看到人或物体发生了什么,却未必知道机器人在某一状态下应该输出怎样的动作。

    第二类是干预数据,也就是遥操作、示教和人工介入生成的状态到动作轨迹。这类数据对机器人训练更直接,因为它包含「看见什么、怎么动、动完发生什么」的链条。代价是每一条高质量轨迹都要花钱买,人力和设备成本很难像软件数据那样快速下降。

    第三类是部署数据,即机器人在真实商业场景运行时产生的遥测数据。它听起来最接近商业飞轮:机器人一边干活、一边赚钱、一边产生训练数据。但这里有一个统计陷阱。

    今天最先落地的机器人场景,通常也是变化最少、流程最固定、风险最可控的场景,例如高度结构化的仓储、工厂或单一任务环境。这类生产数据数量可能很大,但分布较窄、重复度较高。模型一旦学到局部规律,后续每多运行一小时带来的新增信息就会下降。

    部署数据并非没有价值。真正有价值的,往往不是大量「成功完成任务」的常规片段,而是失败、卡住、异常物体、边界条件和罕见扰动。问题在于,这些长尾样本不会按公司希望的节奏稳定出现,发现、筛选和复盘成本也更高。

    更多数据有用,但重复样本会很快变贵

    Garg 对语言模型 scaling law 的借鉴比较谨慎:数据增加通常会带来模型损失下降,但收益递减。如果样本重复、近似重复,或来自同一个窄分布,新增数据的帮助会更快变小。

    放到机器人领域,这个问题更直观。一个机器人学习从固定货架抓取固定包装盒,前几千次示教、失败和修正可能非常有价值。一旦动作、物体、光照和路径都被反复采集,新增数据更像是在复制已经学过的局部经验。

    语言模型训练中已经有类似经验:重复和近重复数据会浪费训练预算,过度重复还可能损害泛化。Garg 并没有把这些结论直接套到机器人训练上,而是用它们说明一个方向:衡量数据价值不能只看数量,还要看样本之间到底有多大差异。

    对 Physical AI 来说,多样性至少有两层含义。第一是让模型见过更多物体、空间、材质、光照、遮挡和操作方式。第二是避免模型在一个过于简单的任务分布里表现很好,换到稍微不同的场景就失效。

    长尾失败案例因此变得关键。真实物理世界不是均匀分布的,低频异常经常决定商业可用性:物体摆放偏一点、包装变形、表面反光、抓手打滑、人突然介入、传感器漏看、地面摩擦变化。模型在常规样本上表现再好,如果处理不了这些尾部事件,部署仍会被少数失败拖住。

    部署飞轮成立,需要早期场景足够「新」

    这篇文章真正挑战的,是具身智能公司常见的商业化路线:先在窄场景中部署机器人,用人类远程接管保证可用性,同时收集生产数据,再用这些数据训练更强模型,打开更多场景。

    Garg 将这类路径称为「neo-integrator」式思路。它试图绕开纯数据采集成本,把机器人放进商业生产中,让运营收入抵消数据成本。相比专门搭建遥操作工厂,这条路听起来更高效。

    但飞轮成立有一个前提:早期商业场景产生的数据,必须足够新、足够多样,能帮助模型迁移到更多任务。如果部署场景只是低变化、低熵、强工程定制的窄任务,数据就会很快饱和。公司得到的可能不是通用能力飞轮,而是一组需要持续集成、维护和异常处理的定制项目。

    这会带来两类成本。第一,每进入一个新场景,都要投入环境改造、流程适配、失败兜底和安全机制。第二,如果部署本身还没有达到盈亏平衡,扩大规模就不一定是在低成本收集数据,也可能是在用亏损换取大量低新颖性样本。

    所以,早期部署不是无用,而是需要更细地看:它带来了多少新任务覆盖,产生了多少失败和异常样本,这些样本能否迁移到其他场景,扣除硬件、人力、维护和集成成本后,每一美元买到的模型改进有多少。

    估值叙事不能只问攒了多少小时

    Garg 给出的建议不是停止采集数据,而是替换评价口径。累计运行小时、遥操作小时和轨迹数量可以作为运营指标,但不应被直接等同于模型进步。

    更有解释力的问题包括:单个任务的数据什么时候饱和,新增一个任务需要多少工程集成成本,数据覆盖了多少不同场景和动作簇,生产数据中有多少是真正的分布漂移和异常样本,部署流里有多少常规成功片段应该被过滤掉,而不是继续喂给模型。

    对应到三类数据,资本配置也会不同。观察数据应优先追求低成本、多样性和广覆盖,用来扩大基础能力边界。高成本的遥操作和示教数据在达到单任务饱和后,应把预算转向更多任务,而不是继续重复同一动作。部署数据则应重点筛选失败、边界条件和分布外样本,丢弃大量信息密度低的常规运行记录。

    这套观点对 Physical AI 的估值叙事有现实影响。一个公司拥有更多机器人、更长运行时间、更大遥操作团队,并不自动代表拥有更强模型壁垒。更难复制的能力,可能是持续找到高价值长尾数据、判断某类数据何时饱和,以及用更低成本覆盖更多任务分布。

    不过,这仍是一套资本配置视角,还不是行业定论。机器人模型是否会出现类似语言模型的规模收益,部署数据能否在某些高维场景持续产生新信息,不同任务之间的迁移效率有多高,都还要靠更多实证结果回答。

    Garg 的提醒落在一个更具体的问题上:Physical AI 的「金球指标」也许不是数据小时数,而是每一美元买到的新颖样本。对于仍在用数据飞轮讲故事的机器人公司,市场最终要看的可能不是累计运行时间有多长,而是这些时间里到底产生了多少新信息。

    jinse.com.cn 0
    好文章,需要你的鼓励
    jinse.com.cn 0
    好文章,需要你的鼓励
    参与评论
    0/140
    提交评论
    文章作者: / 责任编辑:

    声明:本文由入驻金色财经的作者撰写,观点仅代表作者本人,绝不代表金色财经赞同其观点或证实其描述。

    提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

    金色财经 > 区块律动BlockBeats > 数据飞轮还是重复样本?Physical AI 该告别「小时数崇拜」了
    • 寻求报道
    • 金色财经中国版App下载
      金色财经APP
      iOS & Android
    • 加入社群
      Telegram
    • 意见反馈
    • 返回顶部
    • 返回底部