人工智能与机器人技术的相互融合推动了具身智能技术的快速发展,使其成为人工智能最具前景的应用领域之一,吸引全球科技企业争相追逐和布局。本文参考工业和信息化部赛迪研究院等专家观点及大量权威研究报告,对具身智能技术发展现状进行分析,并提出相关建议。
一、技术具身智能技术概览
(一)技术定义及特征
具身智能(embodied artificial intelligence)是指基于物理实体进行感知和执行的人工智能系统,通常以人形机器人为载体,叠加人工智能技术,在适应不同环境的基础上,理解问题、获取信息、做出决策并实现行动,具有泛化性和交互性两大特征。其中,泛化性是指完成未见过任务的能力。具身智能为了与复杂世界互动,要求决策系统具备高泛化性,在互动中不断学习和更新任务目标与决策规划。交互性是指具身智能与环境产生交互,以各种方式(语音、图像、动作等)与人类或其他设备进行沟通,将复杂任务逻辑化拆解,连续、动态地完成任务。
(二)发展历程
具身智能产业的出现和兴起离不开人工智能与机器人技术的发展和融合。人工智能技术方面,在经历了20世纪后期的卷积神经网络、浅层机器学习等技术变革后,深度学习模型的出现为机器视觉技术及后续大模型的发展奠定了基础。2020年以来,多模态大模型的横空出世为具身智能落地提供了技术保障,使其与人类交互成为可能。人形机器人方面,自1973年双足机器人wabot-1问世,人形机器人开始向高动态运动方向发展。当前,部分人形机器人已能实现奔跑、跳跃等高难度动作,但自然语言处理能力仍然较弱,需要进一步结合人工智能技术提升交互性与泛化性。从发展历程看,人工智能与人形机器人两条技术路线逐渐相互融合,加快驱动具身智能技术发展。未来,具身智能将通过端到端控制等方式,具备长链条任务的感知、决策与执行能力,甚至可以实现自学习与自进化。
目前,具身智能技术仍处于发散期,中短期内实现工业规模化应用的可能性较小。具体来看,制造业场景对人形机器人性能要求较高,相比工业机械臂在效率和成本上都不具备应用优势。因此,在服务定制化程度较高且需要人工智能进行部分决策的领域,具身智能技术有望率先实现商业化落地。
(三)市场规模
具身智能技术的快速发展驱动市场高速增长。据markets and markets预测,2023年全球具身智能市场规模为18亿美元,预计2028年将达138亿美元,复合年均增长率(cagr)约为40%。中国的需求市场更为广阔,增速将高于全球。据高工机器人产业研究所预测,2024年中国具身智能市场规模将达22亿元,2030年有望提升至380亿元,cagr超过61%。国内正加紧布局、抢占先机,目前已创建机器人智能传感器等国家级创新中心,也涌现了银河通用、智元、宇树等头部企业。
二、核心环节技术发展及市场格局
从技术角度看,可以将具身智能技术分为大脑端(大模型)、小脑端(传感信息分析与运动控制软件)、身体端(感知、执行与计算硬件)、整机端(软硬件系统整合)等四部分。
从功能看,大脑端负责获取自然语言指令和生成代码;小脑端充当大脑端与外部环境的对接中间层,提供api接口供大脑端调用;身体端接收到指令后作出行走、抓取、放置等动作;整机端负责在设计层面将前述环节整合调配。
从价值占比看,以特斯拉optimus机器人bom成本为例,整机成本约为41381美元,其中,大脑端与小脑端成本约为15000美元(对应fsd价格),占比36%;身体端成本约为26381美元,占比64%。
从技术成熟度看,大脑端与小脑端相关技术近年来才兴起,国内外技术基本处于同一起跑线,尚未达到大规模应用门槛。身体端相关技术发展较早,可以直接使用传统机器人硬件,外国相关技术成熟度较高,中国在机械手相关的力矩传感器和空心杯电机、高端丝杠、计算芯片等领域仍与外国有明显差距,其中六维力传感器、行星滚柱丝杠等价值占比较高的关键零部件不具备大规模生产条件。
(一)大脑端:大模型
大脑端主要功能为识别需求与命令,并转译成具身智能可以理解的任务指令。多模态大模型可以将图像、文字、数据联合训练,增强了具身智能对现实任务的理解。大脑端使用的大模型主要依赖基于transformer底座的算法架构,对于硬件低耦合,跨硬件平台适用性较高。各厂商的技术比拼基本是在已有通用大模型的基础上调整prompt与参数,使之更好地理解传感器数据。近年来,虽然大脑端技术水平飞速发展,但仍然无法摆脱大模型固有的多模态融合难度大、高质量训练数据稀缺等问题,同时面临缺少统一底层控制基座,不同系统模块对接调度难度大等具身智能技术特有的问题。
从市场格局看,当前大脑端的主要参与者多为在大模型领域有较强技术能力的企业,如谷歌、英伟达,科大讯飞、智源等。其中,谷歌依托gemini大模型的技术与数据优势,开发了palm-e具身智能大模型,处于市场领先地位。中国企业在基础技术上仍处于追赶阶段,但其模型对中文语义环境有优化,执行中文任务的能力更强。
(二)小脑端:传感信息分析与运动控制软件
小脑端主要负责通过传感器收集数据信息,进行运动指令发送和行动控制。一般可将小脑端分为上、下半身两个部分,上半身负责物品识别、抓取、放置等操作,主要采用模仿学习、强化学习等技术路线,下半身负责识别地形并进行路线规划、导航、运动等操作,主要采用模型预测控制(mpc) 全身控制(wbc)技术路线,未来也可能将强化学习融入控制系统。
不同于大脑端使用文字和图片数据,小脑端需要在非结构化环境中(不同现实场景)收集与感知和行动相关的多维动态数据,此类数据往往较难获得,也成为小脑端企业的核心竞争力和护城河。当前,主流的数据获取方法有以下三种:一是录制人类第一视角工作视频,此方法可提供较完善的行为数据,有助于更好理解任务目标和完成方式等,但人类手臂和机械臂的长度及灵活性差距较大,数据泛化性较低;二是操作机器人进行数据采集,此方法可直接形成操作数据集,便于逐帧标注行为对错,实现强化学习,但需要大量实际样本数据,获取成本较高,且单一场景的泛化性不足,如谷歌rt-1模型团队耗时17个月收集13万条真实数据,成本高达1000万元,但使用场景仅限厨房取物;三是生成仿真模拟数据,此方法通过仿真模拟(sim2real)平台进行数据生成与训练,仿真数据具有可获得性较高、成本较低(单个场景训练所需数据造价在万元级)等优点。对于异形或被遮挡等模拟难度较大的物体,可先修复物体的点云,再通过现实测量得到包含正确和错误数据的数据对,使小脑端习得物品的相似性特征。
从市场格局看,上半身部分主要参与者包括谷歌、英伟达、银河通用、星动纪元等。由于具身智能涉及的机器视觉、三维点云成像、仿真模拟等前沿技术近年来才实现突破,市场仍处于发展初期,技术路线尚未完全收敛,相关技术主要源自科研成果转化,中美基本属于同一起跑线。下半身部分主要参与者包括特斯拉、波士顿动力、优必选、智元、宇树等。以波士顿动力为代表的运动型机器人厂商起步较早,已推出多款成熟产品,具备先发优势。国内厂商虽然起步较晚,但在仿真模拟(sim2real)等前沿技术加持下,正不断缩小与国外头部企业的差距。
(三)身体端:感知、执行与计算硬件
身体端主要包括感知、执行、计算及其他硬件等。其中,感知硬件主要由视觉传感器、力矩传感器、位移传感器等硬件组成,价值占比约为16%;执行硬件主要由伺服电机、控制器、减速器、丝杠等硬件组成,价值占比约为42%;计算硬件主要由计算芯片组成,价值占比约为3%;其他硬件主要由电池、通信、散热等组成,价值占比约为3%。
1.感知硬件
视觉传感器用于识别周围环境和目标物,价值占比约为2%。身体端主要使用摄像头、激光雷达与毫米波雷达。摄像头可以提供高分辨率图像,其硬件成本较低(单摄像头低于10美元)。中国供应商在摄像头系统集成领域位列全球第一梯队。摄像头受环境影响较大,因此需要辅以激光雷达和毫米波雷达等抗干扰能力更强的传感器,其硬件成本根据性能要求在几十到上千美元范围内浮动。目前,中国企业在激光雷达领域居于全球第一梯队,77ghz毫米波雷达领域也有部分中国企业实现量产。
力矩传感器用于测量力的大小和方向,价值占比约为7%。用于感知三维空间信息的六维力传感器是未来主流发展方向,但成本相对高昂,售价在3000~30000元不等。据中金公司数据,美日企业在力矩传感器领域先发技术和市场优势明显,中国企业仍处于产业发展初期,国产化率不足20%。
位移传感器用于测量物体位置或位移变化,价值占比约为7%。双足、双臂涉及多个关节的运动位置检测,因此对各类位移传感器(如电容、电感、mems传感器等)需求量较大。据mir databank数据,恩基士、松下、欧姆龙等外国头部企业市占率近75%。中国企业虽然能实现中低端产品的自主生产,但在高端产品性能方面仍有较大差距。
2.执行硬件
伺服电机用于将电压信号转化为转矩和转速以驱动控制对象,价值占比约14%。身体端主要使用空心杯电机和无框力矩电机。空心杯电机在结构上突破了传统电机的转子结构,采用无铁芯转子,主要应用于灵巧手,价值占比约为4%。国外龙头企业在此领域深耕数十年,具有丰富的技术经验,国内企业经历多年追赶,主流尺寸产品性能基本与国外企业持平,但小规格电机(8mm尺寸/0.3mnm扭矩规格)与国际顶尖产品(3mm尺寸/0.0018mnm扭矩规格)相差较远。无框力矩电机是以输出扭矩为衡量指标的永磁电机,主要应用于身体关节,价值占比约10%。虽然国内企业已经具备量产能力,但由于起步较晚,在扭矩密度等性能方面与国外产品存在代差。
控制器用于为电机或其它动力执行装置提供正确的控制信号,价值占比约为8%。以西门子为代表的海外企业起步较早,依托在工业机器人领域的优势能够提供较为完善的综合运动控制网络赌钱app下载的解决方案,在高端领域居主导地位。中国企业基于伺服电机的竞争优势在此领域实现了一定突破。据前瞻产业研究院数据,中国市场的国产伺服系统市占率已超过50%,但在生态完善度和技术方案集成度方面仍落后于外国头部企业。
减速器用于降低电机的回转数以获得较大转矩,价值占比约为15%。由于身体端大臂、肩部、腿部等重负载单元和小臂、腕部等轻负载单元需要进行精准运动,因此对rv减速器和谐波减速器需求量较大。该市场日系厂商占据主导地位,但国内厂商已经攻克关键技术,据浙商证券数据,减速器国产化率达36.5%。
丝杠用于关节驱动、步态控制、动作执行等控制身体结构精确位移的动作,价值占比约为5%。行星滚柱丝杠是主流方案,目前国内厂商可以实现小规模生产,但与国外产品在效率、承载能力和精度上差距较大,大负载、高可靠性的行星滚柱丝杠及电动缸仍依赖进口。
3.计算硬件
计算芯片用于处理感知硬件所收集的数据并向执行硬件发送行动指令,价值占比约为3%。计算硬件对算力的要求不高,通用类显卡或端侧计算卡即可满足端到端计算需求。虽然国产中低算力芯片在部分核心指标上已达到国际平均水平,但在整体生态配套上,特别是数据训练、仿真模拟平台开发等层面仍较为落后。英伟达依托jetson orin平台及相关套件所形成的生态优势占据了计算硬件的绝大部分市场。
(四)整机端:软硬件系统整合
整机端企业是具身智能的总体设计单位,负责筛选大脑端、小脑端、身体端所采用的技术路线以及相关零部件型号,最终组装成实体产品交付使用,其产业链定位类似汽车整车厂。
对于具身智能的体现形式,业界主流设计思路有双足双臂(人型)、轮式双臂(人型)、四足等,考虑到未来具身智能最有可能率先落地的场景是特种、服务领域,及其环境特殊性和相关生产工具的复用性(如螺丝刀、电钻等),人型有望成为整机设计的主流路线。
国际市场主要参与者包括特斯拉、波士顿动力、agility robotics、figureai等,中国市场主要参与者包括智元、银河通用、宇树、星动纪元等。从产品进展看,国内外企业基本处于同一起跑线,大部分厂商仅推出demo版本,能否大规模量产及后续量产节奏仍需等待市场反馈和相关技术进一步突破。
三、相关建议
从产业链层面看,整机端企业是最终方案的制定和交付者,拥有较大话语权,未来率先跑出的企业有望成为明星企业,迎来类似openai的“gpt时刻”,因此具有较高的投资吸引力和较大的投资价值。大脑端和小脑端是当前具身智能技术的攻关重点与关键价值点,其中,模型研发、数据采集和标注、仿真模拟平台等细分环节值得关注。在身体端,由伺服电机、减速器、控制器、丝杠等多种部件组成的灵巧手是未来的重要发展方向,虽然当前技术仍不成熟,但各厂商正在全力布局相关产业链,未来有望成为最具技术含量的身体端零部件。
从企业发展层面看,现阶段行业发展尚处早期,大部分国内厂商仍处于技术探索阶段,头部项目估值普遍偏高,尽管部分企业已经实现产品落地应用,但技术成熟度仍然不足,进而难以判断其先发优势的可持续性。
总体看,仅注重身体端研发的整机厂核心竞争力和护城河相对薄弱,中长期视角下在大脑端、小脑端具备技术突破能力的公司可能更具竞争优势。
(1)可关注适用于具身智能的大模型研发进展。关注适用于具身智能的多模态大模型研发进展,以及聚焦特种、服务等特定领域和特定场景下的垂直大模型企业。
(2)可关注在具身智能传感信息分析与运动控制软件方面取得突破的创新型企业。关注在传感信息收集领域采用仿真训练等低成本、高效数据收集路线,并且具备高泛化性方案的创新型企业。
(3)可关注积极布局感知、执行与计算硬件的相关头部企业。关注积极布局灵巧手相关的伺服电机、减速器等具身智能感知与执行硬件等关键零部件,尤其是已实现技术突破且正逐步进行国产替代的国内头部企业。
(国新基金)
注释
〔1〕 资料来源:招商证券。
〔2〕 资料来源:招商证券。
〔3〕 计算能力在英伟达gtx1050显卡级别足以满足当前具身智能运行需求。
免责声明
本文的分析及建议所依据的信息均来源于公开资料,我们对这些信息的准确性和完整性不作任何保证,也不保证所依据的信息和建议不会发生任何变化。我们已力求文章内容的客观、公正,但文中的观点、结论和建议仅供参考,不构成任何投资建议。投资者依据文章提供的信息进行投资所造成的一切后果,概不负责。文章未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用、刊发,需注明出处为国新资讯,且不得对文章进行有悖原意的引用、删节和修改。
- 算力互连技术发展趋势分析及 相关机遇展望2024-09-25
- 工业母机数控系统 发展形势与相关建议2024-08-26
- 智能驾驶走向何方——高阶乘用车智能驾驶分析2024-08-26