当前位置：首页 > 科技 > 正文

机器人迈向 ChatGPT 时刻！清华团队首次发现具身智能 Scaling Laws

科技
2024-11-10 17:34:02
6

想象一下，机器人能够在各种真实场景中自由行动，无需人类干预就能完成各种任务，这是否让你想起了科幻电影中的场景？清华大学交叉信息研究院的研究团队已经让这一梦想成为现实。他们发现了具身智能领域的“圣杯”——data scaling laws，让机器人实现了真正的零样本泛化，可以无需任何微调就能泛化到全新的场景和物体。这一突破性发现，很可能成为机器人领域的“ChatGPT 时刻”，彻底改变我们开发通用机器人的方式！

研究团队将机器人带到了火锅店、咖啡厅、公园、喷泉旁，甚至是电梯里，让它们在这些前所未见的环境中都展现出了超强的适应能力。为了确保研究的可复现性，团队慷慨地开源了所有资源，包括耗时半年收集的海量人类演示数据。

清华团队首次证明：scaling laws 不仅在语言模型中适用，在机器人领域同样适用。真正的scaling laws 包含数据、模型和算力三个维度，而本研究重点突破了最基础也最关键的数据维度。研究团队使用便携式手持夹爪umi，在真实环境中收集了超过4万条人类演示数据。他们采用最新的diffusion policy方法从这些数据中学习机器人控制模型，并通过惊人的15000次实机测试进行严谨评估，最终发现了三个革命性的幂律关系。这意味着什么？简单说：只要有足够的数据，机器人就能像ChatGPT理解语言一样，自然地理解和适应物理世界！这一发现不仅证实了机器人领域与语言模型存在惊人的相似性，更为预测数据规模与模型性能的关系提供了坚实的理论基础。

研究团队还破解了一个困扰业界的难题：对于给定的操作任务，如何优化选择环境数量、物体数量和每个物体的演示次数？经过大量实验，他们得出了两个出人意料的结论：当环境数量足够多时，在单一环境中收集多个不同的操作物体的数据收益极其有限；单个物体的演示数据很容易达到饱和。为验证这个策略，团队找来4个人，只花了一个下午就收集到了训练数据。结果令人震惊：在8个全新场景中，机器人成功率高达90%！这意味着，原本可能需要几个月的数据收集工作，现在可能只需要几天就能完成！

除了数据规模，研究团队还在模型规模化方面有三个重要发现：视觉编码器必须经过预训练和完整的微调，缺一不可；扩大视觉编码器的规模能显著提升性能；最令人意外的是：扩大扩散模型的规模却没能带来明显的性能提升，这一现象还值得深入研究。

数据规模化正在推动机器人技术走向新纪元。但研究团队提醒：比起盲目增加数据量，提升数据质量可能更为重要。关键问题在于：如何确定真正需要扩展的数据类型？如何最高效地获取这些高质量数据？这些都是Data Scaling Laws研究正在积极探索的方向。相信在不久的将来，具有超强适应力的机器人将走进千家万户，让科幻电影中的场景变为现实！而这一切，都将从清华团队发现的这个基础性规律开始！