AI和机器人的关系一直是个绝妙的话题,具身AI实际上一直是人工智能领域研究的前沿方向之一,它的终极目标就是创造一个像人一样的机器人。
(相关资料图)
这一愿景的终极实现或许还要花费很久时间,然而从去年开始,生成式AI的突破进展让人们看到了机器人进化的新方向。
当大模型能力与机器人场景结合起来会发生什么?我们离人工智能机器人的未来有多远?
撇开浪漫的想象,想要切实回答这些问题,我们需要与机器人领域真正一线的从业者们进行深度对话与交流。
这正是品玩未来科技力联合头部投资机构险峰K2VC共同举办以《AI浪潮下机器人领域的新机遇》为题的国内大模型产业生态研讨沙龙的原因。
我们邀请到国内工业机器人领域的头部参与者、一线投资专家和学界领军,一起分析、探讨和拆解关于人工智能罗曼蒂克愿景背后的具体问题:AI对机器人进化有什么推动作用?我们目前处于机器人发展的什么阶段?机器人大模型训练数据该如何收集?大模型对人机交互的改变是什么?
以及最关键的,我们距离更智能的机器人还有多远,这中间还需要克服什么样的困难呢?
下面是这些关键决策人们的回答。
杨健勃|可以科技创始人&CEO
当整个情感交互模型转到深度学习的时候,就可以做到从10秒为周期的交互模态转到百毫秒级的交互机制。
云端会有情感交互大模型,但是在边缘端,目前还没有专门针对transfomer芯片产生。
杨健勃分享了可以科技出品的名为Loona的智能陪伴机器人,或者叫智能小宠物。它里面已经蕴含了基于深度学习的情感交互模型,机器人某种程度上可以自主决策,自主推理出目前要表达的动作、效果,以及和用户的互动反馈,模型中包含了近400种不同的语音指令,互动的动作和表达则有近1500种,几乎可以感知人所有模态的交互。
但由于在边缘侧尚未出现可以高效运行大模型的芯片,目前的技术方案是通过实体机器人收集多模态人机双向主动交互的数据,然后在云端训练机器人交互模型,在未来,杨健勃希望可以把这种基于大模型的智能决策推广到用户侧的使用过程中。
邵天兰|梅卡曼德创始人&CEO
现在还处于早期技术探索期,技术路线还没有开始收敛。
大模型最重要的能力是根据常识处理异常,高层次抽象任务和主动感知。
梅卡曼德成立六年,已经是国内首屈一指的工业机器人解决方案提供商,邵天兰在分享中给出了几个自己的判断。首先是目前大模型还处于技术探索期,它的路线还没有开始收敛。无论是算法、算力还是数据,本身都还在快速的发展过程中。
邵天兰举了个例子,2012年时一个5亿参数的模型就非常大了,需要跑半个小时,而现在标准的CPU可以用不到一秒的时间完成。过去五年,3D视觉、AI、算力和传感器都有非常快速的发展,5年前看今天做的东西就好像科幻一样。邵天兰认为技术带来的确定性是非常强的,很多人会高估1年后的发展水平,但却低估5年后的。“一年内带来的改变没有什么确定性可言,但五年就有很强的确定性了,在十年的尺度上看,技术确定性几乎是显而易见的。”
其次,机器人和AI结合的成功产品形态还没有出现,但可能也就会在近几年内出现。机器人将能处理更复杂、更模糊的任务,大模型会在机器人过去能力的基础上解决更多的问题,这不是一个互相替代,而是互相补充,进一步全面扩展能力的过程。
第三,泛自动化领域还有非常大的空间,但用户的需求是非标准化的,这意味着机器人需要具有高柔性。大模型引领着这种技术方向。
最后,大模型是非常重大的机会,但它要求的研发链条和资金量是非常巨大的,和过去的创业将不再相同。
弭宝瞳|北京矩视智能科技有限公司CEO
在工业视觉领域,由于对准确度要求非常苛刻,所以基于目前大模型的准确度,还无法实现端到端的识别, 但大模型已经可以作用在开发小模型的各个环节里,极大降低了模型开发成本 ,比如基于Diffusion的样本生成,降低收集样本的成本,基于prompt的辅助标注,降低图像标注成本。
弭宝瞳认为大模型在工业视觉领域最终的落地是成为一款非常简单的工具直接面对开发端、面向开发者,让所有人可以非常方便地开发各自行业里的小应用。这将对整个行业有颠覆性作用。
另外从数据层面,中国的工业产业链积累也为大模型在中国的落地发展提供了有利支撑。占据全球制造三分之一的中国工业拥有着完备全产业链条,有各种场景和环境为大模型提供训练所有的大数据。
大模型通用泛化能力对机器人能力带来什么影响?
李宇浩|麦岩智能创始人&CEO
我感觉至少5年内还是很难出现大规模的人形机器人的产品形态应用。但大模型真的是在我们非常绝望,根本找不到方法的时候突然出现的,以GPT为代表的新的AI浪潮必定会对机器人产生革命性的推动。
曾祥永|云迹科技 AI 技术负责人
机器人要结合大模型,首先要融入到这个行业的垂直大模型中。
谢思为|BV百度风投投资人
我相信大模型+机器人有可能诞生通用的机器人范式。
董 豪|北京大学助理教授、研究员
我个人感觉,通用机器人的出现会在自动驾驶完全普及之后,因为它的技术路线是相通的。
大模型会对机器人与人的交互方式产生什么样的影响?
许华旸|史河机器人创始人& CEO
我们做的清洁机器人场景还是比较特殊的,它主要针对船舶和楼宇。因为楼、船有复杂结构,短期看不到机器人全自主作业的可能。目前看最适合的交互方式是遥控器,未来可能会是AR+手势控制。
李宇浩|麦岩智能创始人&CEO
在结构化交互到完全非结构化自然语言交互中间有一个基于场景的自然语言交互,其实这跟理想汽车学的,智舱环境下理想已经能够提供一个非常接近准自然语言的交互了。
谢思为|BV百度风投投资人
我认为有两个分类:一类是跟人交互,另外一类是跟环境交互。前者比如小度机器人,比如基于情感需求的配料等。而跟环境的交互还是会落地到不同的场景中去。
董 豪|北京大学助理教授、研究员
从我看来,交互方式越简单越好,最好是没有交互,直接实现意图识别。
机器人领域数据收集难、生成难,如何更好地让数据服务与AI?
董 豪|北京大学助理教授、研究员
数据采集成本很高,而且往往有局限性。换一个型号的机器人,数据可能都不能用了。
目前学术界认为最直接的方法是先利用虚拟环境让模型学一个策略,然后用虚拟环境中学到的成功策略继续在真实环境里训练。
这样数据采集流程的ROI会特别好,因为不用人工采集,整套过程是机器人自己完成的,而虚拟环境的背景、物体材质形状都可以随便生成,成本很低。
许华旸|史河机器人创始人& CEO
我觉得数据分几块,包括环境数据,机器人的运动数据,还有作业对象的数据。董老师说在仿真环境中先自主产生大量数据,利用这些数据做监督式的学习,这样数据来源就变得非常简单了。
前段靠仿真,中段靠人的干预来评估和修正,这样能在保证ROI的基础上充分采集和利用好数据。
大模型会给机器人带来什么样的问题?
许华旸|史河机器人创始人& CEO
边缘计算最后一定是通过小模型实现,因为大模型的响应延迟太长。至于安全性方面的问题,我们会采取最简单、最可靠的机械或电气等方式来保证,而不会依赖于算法。
李宇浩|麦岩智能创始人&CEO
大模型部署在端侧这在3年内不可能的,现在大家都是端+云的模式,这样就会有一个信号的问题,丢了信号就变成只有端侧智能的产品了,哪怕是信号延迟也会严重影响产品体验。
曾祥永|云迹科技 AI 技术负责人
一致性问题非常重要,在我们商用场景一定强调的是输出的准确性、一致性,不能脱离预期生成很随意的答案。
数据安全也非常重要,我的数据是不是都要上到云上大模型上?上去之后数据安全吗?我们最近考虑基于开源中小模型,叠加行业数据,打造我们自己的垂直领域模型。
董 豪|北京大学助理教授、研究员
如果把语言模型跟机器人做结合,对齐问题不解决的话是会出现很严重的后果的。
在自然语言大模型里现在就有人研究对齐问题,这是个研究热点。但在机器人领域现在大家还没有开始研究这块。
大模型会让机器人公司的竞争壁垒发生怎样的变化?
谢思为|BV百度风投投资人
相关公司的核心竞争力可能存在于在细分场景下,收集小模型和动作的数据库的能力,长远来讲,评估一家大模型+机器人公司的指标之一就是看它是否具备突破新场景的能力。
董 豪|北京大学助理教授、研究员
从长远来看主要是技术通用性,如果从技术来看,一个好的技术应该是可以适用于任何场景。
曾祥永|云迹科技 AI 技术负责人
如果进入到RaaS(机器人即服务)阶段,那么就在两个层面上存在壁垒。一个是把机器人本体做得稳定、可靠、执行成功率足够高,成本也能做到充分控制。再一个是能够真正做到规模化服务。
许华旸|史河机器人创始人& CEO
除了做好产品研发的基本功、制造业的基本功、品牌营销的基本功,还要建立好行业内的场景、任务、工艺等数据壁垒,并基于这些数据搭建专用的小模型。这些数据可以帮助公司很好地建立门槛。
李宇浩|麦岩智能创始人&CEO
机器人公司一定要基于对垂直场景的深入理解。我认为,绝大多数机器人的形态一定不会是人形。尽管通用人形机器人是个很好的生意。