免责声明：金色财经所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（jinse.com.cn）举报

数据飞轮还是重复样本？Physical AI 该告别「小时数崇拜」了

区块律动BlockBeats

刚刚

曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg，在一篇题为《Moneyball for Physical AI》的文章中，把具身智能的数据竞赛比作棒球史上的「金球」时刻。

他想挑战的是一个越来越常见的融资叙事：机器人公司只要堆更多遥操作、更多真实部署、更多运行小时，就能形成数据飞轮。对投资者来说，这不是学术口水战。具身智能公司的成本结构、商业化速度和模型壁垒，很多时候都被包装进「数据闭环」这四个字里。如果累计小时数并不等于有效模型进步，市场就需要重新看待这些公司的数据资产。

「数据小时数」可能是机器人行业的打击率迷信

Garg 借用了《Moneyball》的经典类比。2002 年奥克兰运动家队以联盟低薪资球队之一的阵容赢下 103 场比赛，关键不是买到更贵的球员，而是发现市场错估了球员价值。传统球探看重打击率、盗垒和姿势，但更能解释球队得分能力的指标，是上垒率。

在他看来，Physical AI 也可能处在类似阶段。行业承认数据是通向通用机器人模型的必需品，却容易把最容易展示的指标当成最重要的指标：累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。

机器人数据和文本数据的供给方式并不一样。大语言模型可以从互联网、代码库、书籍和网页中获得海量低成本文本，瓶颈更多来自算力、清洗和训练效率。机器人模型需要的是带有物理交互、动作反馈和环境变化的数据，每一小时有效数据都要被真实创造出来，背后对应设备、人力、场地、传感器、失败处理和安全成本。

机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。更准确地说，当代大型视觉语言模型训练所消耗的文本和图像数据，如果折算成人类阅读或观看时间，约相当于 10 万年，而机器人缺少同等规模的真实交互数据。这个说法不是在给机器人模型设定精确门槛，而是在提醒行业：真实世界交互数据无法像网页文本一样被低成本抓取。

这也是 Garg 反对「血汗工厂式遥操作」叙事的原因。大量人工遥操作确实能带来动作密集的训练样本，但如果公司只按总小时数评价数据，资金可能流向重复、低难度、低信息密度的样本，而不是最能降低失败率的场景。

三类数据买到的东西并不一样

在 Garg 的分类里，Physical AI 数据大致分为三类：观察数据、干预数据和部署数据。它们都可能有用，但成本、约束和信息密度差异很大。

第一类是观察数据，比如第一人称或第三人称视频。它的优势是成本低、覆盖广，可以帮助模型理解物体、空间、动作结果和环境分布。短板也很清楚：模型能看到人或物体发生了什么，却未必知道机器人在某一状态下应该输出怎样的动作。

第二类是干预数据，也就是遥操作、示教和人工介入生成的状态到动作轨迹。这类数据对机器人训练更直接，因为它包含「看见什么、怎么动、动完发生什么」的链条。代价是每一条高质量轨迹都要花钱买，人力和设备成本很难像软件数据那样快速下降。

第三类是部署数据，即机器人在真实商业场景运行时产生的遥测数据。它听起来最接近商业飞轮：机器人一边干活、一边赚钱、一边产生训练数据。但这里有一个统计陷阱。

今天最先落地的机器人场景，通常也是变化最少、流程最固定、风险最可控的场景，例如高度结构化的仓储、工厂或单一任务环境。这类生产数据数量可能很大，但分布较窄、重复度较高。模型一旦学到局部规律，后续每多运行一小时带来的新增信息就会下降。

部署数据并非没有价值。真正有价值的，往往不是大量「成功完成任务」的常规片段，而是失败、卡住、异常物体、边界条件和罕见扰动。问题在于，这些长尾样本不会按公司希望的节奏稳定出现，发现、筛选和复盘成本也更高。

部署飞轮成立，需要早期场景足够「新」

这篇文章真正挑战的，是具身智能公司常见的商业化路线：先在窄场景中部署机器人，用人类远程接管保证可用性，同时收集生产数据，再用这些数据训练更强模型，打开更多场景。

Garg 将这类路径称为「neo-integrator」式思路。它试图绕开纯数据采集成本，把机器人放进商业生产中，让运营收入抵消数据成本。相比专门搭建遥操作工厂，这条路听起来更高效。

但飞轮成立有一个前提：早期商业场景产生的数据，必须足够新、足够多样，能帮助模型迁移到更多任务。如果部署场景只是低变化、低熵、强工程定制的窄任务，数据就会很快饱和。公司得到的可能不是通用能力飞轮，而是一组需要持续集成、维护和异常处理的定制项目。

这会带来两类成本。第一，每进入一个新场景，都要投入环境改造、流程适配、失败兜底和安全机制。第二，如果部署本身还没有达到盈亏平衡，扩大规模就不一定是在低成本收集数据，也可能是在用亏损换取大量低新颖性样本。

所以，早期部署不是无用，而是需要更细地看：它带来了多少新任务覆盖，产生了多少失败和异常样本，这些样本能否迁移到其他场景，扣除硬件、人力、维护和集成成本后，每一美元买到的模型改进有多少。

估值叙事不能只问攒了多少小时

Garg 给出的建议不是停止采集数据，而是替换评价口径。累计运行小时、遥操作小时和轨迹数量可以作为运营指标，但不应被直接等同于模型进步。

更有解释力的问题包括：单个任务的数据什么时候饱和，新增一个任务需要多少工程集成成本，数据覆盖了多少不同场景和动作簇，生产数据中有多少是真正的分布漂移和异常样本，部署流里有多少常规成功片段应该被过滤掉，而不是继续喂给模型。

对应到三类数据，资本配置也会不同。观察数据应优先追求低成本、多样性和广覆盖，用来扩大基础能力边界。高成本的遥操作和示教数据在达到单任务饱和后，应把预算转向更多任务，而不是继续重复同一动作。部署数据则应重点筛选失败、边界条件和分布外样本，丢弃大量信息密度低的常规运行记录。

这套观点对 Physical AI 的估值叙事有现实影响。一个公司拥有更多机器人、更长运行时间、更大遥操作团队，并不自动代表拥有更强模型壁垒。更难复制的能力，可能是持续找到高价值长尾数据、判断某类数据何时饱和，以及用更低成本覆盖更多任务分布。

不过，这仍是一套资本配置视角，还不是行业定论。机器人模型是否会出现类似语言模型的规模收益，部署数据能否在某些高维场景持续产生新信息，不同任务之间的迁移效率有多高，都还要靠更多实证结果回答。

Garg 的提醒落在一个更具体的问题上：Physical AI 的「金球指标」也许不是数据小时数，而是每一美元买到的新颖样本。对于仍在用数据飞轮讲故事的机器人公司，市场最终要看的可能不是累计运行时间有多长，而是这些时间里到底产生了多少新信息。

好文章，需要你的鼓励

参与评论

0/140

提交评论

声明：本文由入驻金色财经的作者撰写，观点仅代表作者本人，绝不代表金色财经赞同其观点或证实其描述。

提示：投资有风险，入市须谨慎。本资讯不作为投资理财建议。

金色财经 > 区块律动BlockBeats > 数据飞轮还是重复样本？Physical AI 该告别「小时数崇拜」了

区块律动BlockBeats

媒体专栏

1563 文章 12498万浏览

+关注

区块律动BlockBeats

24小时热文

靠 ChatGPT 聊出来的 STRC 发行价真会陷入死亡螺旋吗？
金色精选
AI监管松绑：美国放行Anthropic最强模型超100家机构获准使用
华尔街见闻
苹果一声涨价——AI的增量叙事结束了？
比推 Bitpush News
金色早报丨OpenAI发布GPT-5.6 BTC跌破60000美元
金色早8点
AI 圈没空理区块链
比推 Bitpush News
OpenAI推迟上市之下：甲骨文带头硬件股下跌 ServiceNow和Workday领衔软件股全线大涨
华尔街见闻
上个世纪成立的 SBI 成了日本 Web3 的「排头兵」
Foresight News
数据飞轮还是重复样本？Physical AI 该告别「小时数崇拜」了
区块律动BlockBeats
人民币在修一条路
经济观察报
裁员潮席卷加密圈——华尔街百亿收购赛道核心资产
Foresight News
Anthropic推出Claude Tag——为什么先帮竞品涨了注册？
区块律动BlockBeats
项目周刊丨 Strategy：目前已累计持有全球4%的比特币 X 正式在美国推出 X Money 服务
金色荐读

寻求报道
金色财经APP

iOS & Android
加入社群
Telegram
意见反馈
返回顶部
返回底部

数据飞轮还是重复样本？Physical AI 该告别「小时数崇拜」了

区块律动BlockBeats

「数据小时数」可能是机器人行业的打击率迷信

三类数据买到的东西并不一样

更多数据有用，但重复样本会很快变贵

部署飞轮成立，需要早期场景足够「新」

估值叙事不能只问攒了多少小时

联系信息

24小时热文