国产“世界模型”已经能让机器人进厂打工

　　寻找新质生产力青年

元股证券:ygzq.hk

　　晋江，仲夏，制鞋车间。

　　一台机械臂夹起鞋面，沿曲面轮廓均匀涂胶，力度、角度和速度，由视觉系统、力控算法实时调节。十多秒后，鞋面被送到下一工位，另一台机械臂开始压底。

　　此前，这些工位上坐着的还是工人。炎热的夏季，让空气中弥漫的胶水气味越发刺鼻。“我戴着口罩进去，待了一分钟就退了出来。那些工人一刷就是一天。”杭州影身智能创始人闵伟回忆。

　　现在，机器人接过了那把胶刷。背后的支撑，是这家初创公司自研的原生4D世界模型。

　　让机器人说自己的母语

　　要理解影身智能在做的事，先得明白一个概念：世界模型。

　　简单说，它就是让AI理解物理世界规律的一种方法。大语言模型的核心是“预测下一个词（Token）”，而世界模型的核心是“预测下一个物理状态”。

　　比如一台从未见过鞋带的机器人，没人教它怎么解，但它经过数千小时人类操作视频的训练，慢慢学会了物体在被拉、扭、推时的形变规律，动手之前就能预判接下来会发生什么。

　　影身智能做的正是这件事。只不过它的训练素材并非互联网上的现成视频，而是现实世界里三维空间加时间维度的4D数据。

　　公司成立于2024年6月，正值VLA（视觉-语言-动作）模型开始走热的时候。这条路线以预训练的视觉语言模型为基座，将视觉和语言输入统一处理后生成动作，相当于让机器人同时“看”和“听”，然后直接做出反应。

　　“但这里面有一个根本问题。”闵伟说，“语言是人类的母语，不是机器的母语。”

　　人类一出生就活在三维物理世界里，对空间、时间、因果关系有直接的体感。而AI训练用的语言、图片、视频，都是真实世界被压缩后的投影。“降维必然损失大量信息。这也解释了为什么行业数据从十万小时堆到千万小时，却还没能实现真正的泛化。”

　　闵伟选了一条当时极少人走的路：做世界模型，让机器人直接感知三维空间，再叠加时间维度，形成4D认知，“在具身智能领域，数据从来不是多少的问题，而是质量问题，更确切地说是维度问题。”

　　当影身智能让机器人看到和人一样信息量丰富的高维数据，困扰许久的泛化问题似乎有了解法。

　　那个没有现成答案的问题

　　不过方向确定后，第一个难题来了：数据从哪里来？

　　互联网上不缺文本、图片和二维视频，全球的4D数据仅有上百小时，大多数在实验室里。4D数据可以采集，但成本非常高。今年春晚，演员刘浩存和数个分身一起跳舞惊艳了全场，做4D建模的机器就要200多万元，算下来成本至少2000元/分钟。

　　影身智能给出的方案，是一套叫“影身360”的数据采集系统。用一圈普通摄像头环绕工位，多角度同步采集数据，再通过自研算法合成4D数据。

　　这套系统的关键是低成本。它不依赖昂贵的传感设备，普通RGB摄像头加消费级GPU就能运行，具备规模化部署的条件。

　　“互联网上有几百亿张图片，但信息量可能不如一位老师傅在产线上刷几十秒胶。”闵伟回忆起第一次进制鞋工厂看到的场景，“那几十秒包含了力度、角度、曲面贴合、流体形态变化，所有物理世界最真实的反馈。”

　　“每一次人工智能的重大变革，底层驱动力都是一代又一代新的数据集。”

　　行业对数据的理解，也在这几年快速演进。传统仿真数据，量大但信息量低；真机遥操作精度最高，但成本高、跨本体困难；近年兴起的Ego数据，以第一人称视角采集、成本低，已成为大规模预训练的主流选择。影身则更进一步，多视点4D数据，直接保留物理世界的完整时空信息。

　　为什么是制鞋？

　　有了技术和数据方向，闵伟面临第二个问题：落到哪个场景？

　　汽车、3C、物流、卫浴、床垫……他看了很多行业，最后选了制鞋。“制鞋是典型的双柔性场景，也是这个行业的经典难题。”

　　第一重柔性是材料，鞋面布料软，会变形、会起皱，机械臂抓不住；第二重柔性则是生产，鞋款按月迭代，小批量、多批次，传统编程的机械臂跟不上节奏。“派个工程师去重新编程，还不如直接用人。”

　　还有个现实问题：刷胶工序的工人长期暴露在刺鼻的胶水挥发环境中，也越来越招不到年轻人。

　　晋江的工厂老板曾问他三个问题：你的设备要不要改造产线？要不要停工？要不要派工程师驻场？闵伟的回答都是“不用”。

　　试点在2025年跑通。机器人放在原有工位上，1∶1替代人工，不改产线、不停工。它通过观看工人操作学习新鞋型（理解工艺意图，自己再泛化到新鞋型上，不需要重新编程），效率与人相当，但能7×24小时运转。原来45人的生产线，现在只需要5个人管机器。

　　更重要的是，机器人每在产线上运行一天，都在回传真实的4D操作数据。这些数据反过来训练模型，模型变强后又能适应更多产线，形成一个“数据飞轮”。

　　现在，影身智能已经能做到用一张图生成多段4D数据，4D数据的基座逐渐夯实。今年年底到明年上半年，他们计划发布第一个大规模4D数据集，以及具身智能大模型。

　　从剥鸡蛋到做世界模型

　　闵伟与柔性物体的较劲，从20年前就开始了。

　　2005年，他在华中科技大学的机械创新基地里，带着几个同学DIY了一台熟鸡蛋剥壳机，需求来自江浙一家生产卤鸡蛋的食品厂。那是他第一次挑战柔性操作，鸡蛋内容物是软的，蛋壳又存在个体形状差异，机器很难控制力道。

　　那台机器做得不算成功，“效果还赶不上人”，但这件事在他心里埋下了一颗种子。

　　后来，他以专业第一保送清华大学精密仪器系直博。系里摆着当时国内最先进的双足人形机器人Demo，“但离落地还很远，走路都摇摇晃晃的。”

　　2017年，闵伟加入阿里本地生活，从零开始搭建机器人团队。他们做过按电梯按钮的机械臂，也做过写字楼配送机器人，完整走完了从技术到产品，再到商业化的全过程。

　　2024年，他决定出来创业，和清华同窗刘烨斌教授、孟子阳教授重新走到了一起。两位教授在三维视觉和机器人控制领域深耕多年，也都到了从学术成果向产业转化的临界点。

　　“那年春节前后，我回清华找他们吃了一顿饭。”闵伟说，“饭还没吃完，事情就定了。”

　　影身智能的名字是闵伟取的。一层意思是“影”，希望机器人像影子一样跟着人、服务人；另一层来自柏拉图洞穴寓言，人在洞穴里看到墙上的影子，以为那就是真实世界，直到走出去才发现真正的世界在外面。

　　“过去AI看到的是世界的影子。”他说，“我们要让AI走向真实的世界。”

　　全球领先的世界模型新路径

　　近几个月，世界模型从一个小众概念迅速成为AI圈最热的话题之一，但行业对它的定义、技术路线、评测标准等始终没有形成共识，大家还在摸黑过河。

股票杠杆开户入口

　　在智源大会上，智源研究院院长王仲远把现有技术路线大致分成四类：以语言为中心的VLM（视觉-语言模型）、VLA路线；以像素为中心的视频生成类，如Sora、Seedance；以三维结构为中心的3D重建、李飞飞团队的World Labs Marble模型；以视觉表征为中心的世界模型，比如杨立昆的JEPA系列。

　　闵伟把自己划在第五类，以4D时空为核心的动态世界模型，在全球范围内都属于领先。“前四类用的都是互联网上已有的现成数据，我们是从底层去创造一种从来没有过的数据集。”

　　两个月前，影身智能刚完成近亿元融资。投资方包括恒生电子（600570）、松禾资本、深高投等。更关键的是，他们已经拿到了国内具身智能领域首个千万级柔性智造订单，在手柔性智造订单已超2亿。

　　这笔订单来自制鞋业，但远非终点。穿鞋带、折纸盒、成品包装，再到箱包、家居……应用场景正在不断延伸。

　　和同行们一样，影身智能的终局想象在家庭。

　　81岁的奶奶在湖北老家，眼睛越来越不好使，而闵伟一年回不了几次老家。当被问到最希望机器人进入家庭能做什么时配资平台是否支持低杠杆，他几乎没有犹豫： “如果未来有个机器人能每天陪着我奶奶，做做饭、聊聊天、洗洗衣服，这是我最期待的事情。”

泓川证券官方入口｜实盘配资领军品牌提示：本文来自互联网，不代表本网站观点。