贴边清理卫生、定向拾起易拉罐,甚至能听懂人类世界中的流行文化梗、在你面前跳起“海藻舞”……这些科幻片中
随着以ChatGPT为代表的AI大模型产品取得突破,传统的能力也逐渐被“解封”了。给机器人植入大模型的“脑子”后,它们不仅可以接收你的自然语言,甚至还能理解你的幽默。
这一赛道被行业称为“具身智能”,也逐渐受到资本的追捧,有创业公司负责人透露,2024年一开年,已有数十家投资机构对该类型公司表示了关注。据南都记者统计,从去年下半年至今,与具身智能概念相关的公司,已有12家实现融资,仅7月份相关融资就出现了4笔。在众多备受青睐的企业中,最夸张的要数华为天才少年“稚晖君”辞职后创立的智元机器人,在过去一年时间内就融资了6轮,资方名单包括红杉中国、上汽投资等,估值已经飙升至70亿元。
尽管资本正在加速涌入这个赛道,但有投资者向南都记者指出,其中不乏跟风者。在这一波热钱聚拢中,北京、上海、深圳三地政府亲自下场参与,热钱聚拢的方向也不同,深圳聚焦于制造业场景、北京瞄准了机器人“大脑”,上海则在养老场景中提及了具身智能。
有业内人士指出,目前机器人要实现通用和泛化,仍面临着不少难题。比如,通用AI大模型需要微调后才能称为“机器脑”,但目前的大模型“还非常糟糕”。同时,机器人有效数据的收集是其中耗费成本和颇具难度的一项,为克服这一难题,不少地方政府或机构已宣布将共建数据共享、训练平台。
作为“大模型应用元年”的2024年,时间已经过半,新的大模型落地方向——具身智能赛道不断出圈。“具身智能”指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力,简单来说,具有物理身体的人工智能就叫“具身智能”,这个词今年以来逐渐成为科技热词。
北京大学助理教授、北大-银河具身智能联合实验室主任王鹤曾提到,具身智能依赖个体的身体形态和能力,缺乏大量的现成数据可供训练是该赛道一直处于瓶颈的原因。但随着AI大模型的突破,大模型让机器人开始“长出脑子”。产业从业者甚至开始向具身机器人投喂人类运动数据,让机器人模仿人类的动作轨迹。
这意味着,以前机器人只能单一地执行扫地、焊接等任务,加入“脑子”后,机器人可以理解你的幽默、可以给你递东西,可以定向清扫目标垃圾,甚至可以帮你开车。
比如,已经投入到亚马逊仓库里搬箱子的Aglitiy机器人,在演示中不仅能自行拆解如何做饭,还能理解人类的流行文化梗语(例如星球大战中黑暗尊主达斯·维达之剑);国内的机器人厂商雅可比也发布了一款具身智能商超服务机器人,可以通过口头指令让机器人完成补货与拣货等任务。
这一火热趋势逐渐延伸到了投资领域。以最近一波因大模型技术突破而发展的狭义具身智能概念为前提,据南都记者统计,从去年下半年至今,与具身智能概念相关的融资已经有12家。从金额上看,规模涉亿的投资达到了7起,有鹿机器人、小雨智造、逐际动能、宇树科技、银河通用、智元机器人都获得了亿元量级融资。其中华为天才少年“稚晖君”辞职后创立的智元机器人,更是在过去一年时间内就融资了6轮,资方名单包括红杉中国、上汽投资等,估值已经飙升至70亿元。
时间来到今年7月,资本对于具身智能的关注再次集中显现。仅在7月内,关于具身智能的投资已发生了4起。其中,7月1日,小米集团、智源、王田苗对小雨智造投出了1亿元人民币的种子轮;7月15日,招商局创投、尚颀资本、阿里巴巴等企业或机构领衔对逐际动能投出了数亿元人民币的A轮投资;7月17日,北京机器人产业发展投资基金对星海图投出了数千万人民币的A轮投资;7月19日,银河通用继6月获美团、商汤等知名互联网企业7亿人民币的天使轮投资后,又迅速获得港投公司的天使+轮次投资,融资金额尚未披露。
沃衍资本合伙人祝波博士告诉南都记者,这一轮投资热的出现,是因为以ChatGPT为代表的大语言模型取得突破后,使得思维世界、数字世界和物理世界开始产生了闭环。“现在,人类的知识能够提炼到大模型上去,数字世界的大模型又赋能到物理世界的机器中。不同于过去机器人的功能单一性,这一代的具身智能将有一定的泛化能力,这意味着一个家务机器人不仅仅能够完成开门、炒菜这样的规定动作,还具备一定应付未知任务的能力。”
不过,祝波也补充称,要实现接近人类的泛化能力,技术和产品都还需要一段很长时间去发展,这段时间大概率会长于一个基金7年的周期。
从这个角度看,在祝波看来,目前扎进具身智能投资热中的投资人有三种。“第一种投资人对是抱有历史责任感的,他们投资是为了推动人工智能的不断前进,比如马斯克;第二种投资人可能是投机主义者,前年投AI创业四小龙,去年投大模型,现在又投具身智能,哪个热潮来了投哪个;第三种投资人应该是现实派,对包括人工智能在内的科技项目都充满理性,他们只会投那些在现阶段真正能产生商业价值闭环的标的。”
南都记者梳理发现,不同于大模型赛道中挤满了互联网大厂的盛况,在具身智能这个更细分的赛道中,目前仅有小米、美团、百度、阿里、商汤几家互联网大厂在投资上布局。
对于大厂的投资布局,有投资人向南都记者指出,“荷包”较足的互联网大厂的投资逻辑或不在于短期回报,不过,在投资后大家会对这些公司的价值产生较高期待值,这有利于股价的起飞,而二级市场的标的往往也是借用这套模式炒作具身智能概念。
在一段时间内备受资本追捧的具身智能相关企业,专注的领域也不尽相同。有企业集中做具身智能机器本体产品,比如,备受资本关注的智元机器人在2023年8月就发布了第一代通用型具身人“远征A1”,由小米等企业和机构投资的小雨智造也专注于打造“一脑多形”的人的研发;也有企业做大模型大脑部分,比如创始成员来自达摩院的有鹿机器人就依托于其自主研发的第二代具身智能技术LPLM大模型,打造软硬件高度适配与可泛化的通用智能大脑。
更有企业企图解决具身智能相关的数据收集问题,今年5月刚实现融资的光轮智能就聚焦于结合生成式AI和仿线D、物理真实、可泛化的合成数据,解决自动驾驶、具身智能发展中的数据难题。
在具身智能的创业方向上,祝波表示,如果把投身于大模型、具身智能的企业比作“淘金者”,那些为“淘金者”的发展提供工具的企业就像是“卖铲人”。“比如提供算力方案的英伟达就像是‘卖铲人’。不过现实往往是‘流水的淘金者、铁打的卖铲人’。除了做算力,做数据的企业也是有长期价值的,数据是大模型的燃料,来自思维世界的存量高质量数据即将耗尽,推动具身智能发展必然要直接从物理世界获取数据或是合成数据,要成为可持续成功的数据‘卖铲人’,还要看企业是否能服务于不同的‘淘金者’。”祝波称。
除了资本以外,各地政府也纷纷闻势而动,目前已有北京、上海、深圳三个城市已计划有至长5年、至短3年的行动方案。南都记者关注到,与北上深政府布局相映衬的,是具身智能企业的分布。目前,北京、上海与深圳都聚集了一批具身智能企业。有投资人向南都记者指出,本地产业禀赋造成了不同的产业生态。其中,高校林立的北京企业更偏向于在具身智能“大脑”方面做布局,而深圳则因为制造业的底蕴,引不少企业布局具身智能的“身体”部分,上海则更多是南北风格的结合。
今年4月16日,广东省具身智能机器人创新中心启动仪式在深圳市举行。据介绍,创新中心计划于11月底向工信部提交国家创新中心建设方案,目前已制定一系列量化指标目标。五年内(2024年-2028年)具身智能机器人创新中心中心将聚焦关键共性技术研发,实现核心技术自主可控;将在制造、电力、交通、特种、医疗、服务等10个以上典型场景部署,并构建中试和测试基地;同时将与行业龙头企业共建4个以上联合实验室,与股东单位共建6个以上共性关键技术平台。
现阶段,广东省具身智能机器人创新中心将瞄准专业特种、工业制造、家用服务三类需求。其中,专用特种领域将发掘电网、水务、采矿等作业场景,考验机器人的执行“效果”;工业制造领域将聚焦船舶制造、发电设备、高端装备等,考验的是执行“效率”;演化到家用服务领域,则将聚焦健康护理、医疗康复、家庭服务等场景,考验的是本质“安全”,三类需求循序渐进。
而后在5月31日,深圳还正式印发了《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》,提出开展通用型具身智能机器人的研发和应用,鼓励企业依托河套、前海或海外研发中心,积极拓展国际市场,开展人形机器人规模化应用。
北京海淀区在今年4月29日也发布了《打造全国具身智能创新高地三年行动方案》(以下简称《行动方案》),重点聚焦具身大模型和机器人整机,部署六大行动,力争到2026年初步建成全国具身智能原始创新策源地、应用示范新高地和产业加速集聚地。《行动方案》还重点提到了三个“小目标”,一是突破一批具身智能前沿核心技术,率先研制出国内领先、国际先进的多模态具身大模型和多形态机器人;二是打造一批具身智能标杆应用示范,率先实现具身大模型在万台机器人上的融合应用;三是集聚一批具身智能创新团队,率先培育出具有国际竞争力的领军企业。
数据显示,目前海淀区聚焦了北京全市40%的企业,人形机器人企业数量近200家(占全市半数以上),包括十余家人形机器人本体企业(占全市一半以上),有3家本体上市企业、2家独角兽企业,清华、北大、北航、北理、中科院等高校院所,银河通用机器人、智源研究院联合研发了140亿参数量的具身智能多模态大模型Emu。
今年5月,全国首个国家地方共建人形机器人创新中心也在上海浦东揭牌。该中心在2024世界人工智能大会期间带来了自主研发的人形机器人“青龙”。“青龙”身高185cm、体重80kg,全身多达43个主动自由度,即便是柔软的面包,也能在抓起时保证面包不变形。
在落地场景上,上海方面也更为极致地瞄准了养老场景。就在7月11日,上海市人民政府办公厅印发《上海市推进养老科技创新发展行动方案(2024-2027年)》,《方案》提到要研发用于语音、人脸、情感、动作识别和环境感知的人工智能模型与算法,研发具身智能、生成式人工智能等新技术,提高养老科技产品自主感知、自主学习、自主决策、自主执行等能力。
在资本竞逐的同时,不少业内人士也提出,要使得具身智能机器人能进行泛化任务执行、变成真正的通用机器人,产业仍有较长路径要走。
何谓实现“通用”能力?北京大学助理教授、北大-银河具身智能联合实验室主任王鹤表示,通用主要体现在任务与环境的通用性,一是机器人能在一个场景里完成好几件事情,这才能实现人力节省;二是环境上的通用性,即机器人落地后能跨场景、跨地形穿梭工作。
王鹤还提出,未来中国制造业将会面对巨大劳动缺口,同时中国下一代也可能会出现养老缺口,如果能实现让机器人像员工一样真正动起来,或能针对上述两个难题起到一定的弥合作用。这就需要通用机器人实现过去专用机器人不能达到的柔性、多任务状态,并且跟人之间能够用自然语言来沟通。
不过,目前机器人的“大脑”也并未完全准备好。宇树科技创始人及CEO王兴兴在世界人工智能大会现场表示,机器人要了解通用世界需要通过更智能的大语言模型、多模态模型来实现,但目前的模型尚未实现对整个世界的理解。“目前多模态模型非常糟糕。这个方向目前全球也有一些顶尖学者,包括李飞飞老师在做的空间智能其实跟这个想法非常接近,可以看到全球顶尖的大家都在推动世界模型的构建。只有让机器人能真正理解通用的世界,才能实现机器人今天可以在工厂干活,明天可以去家里帮你做饭,真正对整个世界有理解。”
此外,高质量数据的收集也是具身智能机器人落地的一大难题。与仅仅作用在网络世界的大模型数据收集不同,当涉及到物理世界的数据采集时,成本和难度都会成倍上升,比如谷歌近期开源的相关数据集,就是在投入大量人力和资源后,17个月内仅收集到13万条高质量数据。具身智能企业星海图CEO高继扬就在接受媒体采访时指出,从物理世界持续获取数据且高效使用数据的能力,甚至已经成为了具身智能企业的核心壁垒。
目前,为解决数据收集问题,有地区正在力推建立训练场、打造基建测试平台等方式来采集多模态、高质量的数据。比如,北京海淀就宣布将建立为创新主体解决共性难题的数据共享、训练平台。此外,国家地方共建人形机器人创新中心也宣布将构建开放、开源的标注工具,鼓励生态联盟单位一起加速数据集构建,通过开源数据场景和行业专用数据赋能应用。
上一篇:工业机器人产业迎重要变化
下一篇:全国声音:加速机器人及智能制造产业发展的提案