首页 > 商业 > 正文
Qzone
微博
微信

谷歌推出视觉语言模型PaLM-E,参数量达5620亿

商业 三易生活网 2023-03-11 09:03

近日有消息显示,Robotics at Google、柏林工业大学以及Google Research团队联合推出了一款目前最大的视觉语言模型PaLM-E,其最终的参数量高达5620亿。据了解,这个模型具备理解图像、理解生成语言和处理复杂机器指令的能力。

对此谷歌方面表示,该模型还具有环境适应性反应,并有能力面对可能出现的意外状况。有消息称,或因该模型集成于一个控制回路中,因此对干扰具备一定的鲁棒性。

 

据悉,由于该模型是通过PaLM-540B语言模型与Vit-22B视觉Transformer模型结合而成,其核心是强大的语言处理能力,亮点则在于该模型获取并处理视觉数据后,能利用视觉数据增强自身的语言处理能力。例如,可通过交通标志的图片解答对应的交通规则、通过食材图片了解制作流程,或是通过输入指令来指导机器人完成相对复杂的动作。

据了解,PaLM-E还有一项较为突出的优势,即具备强悍的正迁移能力。在谷歌方面公布的相关测试结果中,研究人员认为,基于PaLM-E具备自主学习的能力,因此其能够在不同实体上执行规划与跨长度任务,例如该模型在指导机器人完成“按颜色分类色块”后,还能进一步指导机器人完成将绿色色块推至从未见过的摆件旁。

 

对此有观点认为,虽然目前PaLM-E给予机器人的指导看起来并非十分复杂,但随着数据训练的更迭,其或将能够赋予机器人更多的思考能力,未来有望能够更合理的规划和执行人类发出的命令,并在工业应用和设计上取得较大的突破。

据了解,在人工智能赛道,微软此前在今年2月也曾发表过上述研究中提到的类似案例,即通过ChatGPT编写的程序来指导无人机如何寻找饮料。

【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】

 

延伸阅读:

 

责任编辑: cxr4186

责任编辑: cxr4186
人家也是有底线的啦~
广告
Copyright © 2018 TOM.COM Corporation, All Rights Reserved 雷霆万钧版权声明
违法信息/未成年人举报:010-85181169     举报邮箱/未成年人举报:jubao@tomonline-inc.com