图片来源:谷歌 AI 介绍视频. 而 RT-2 的创新之处在于,RT-2 使用前面所述的视觉语言模型(VLM)PaLM-E 和另一个视觉语言模型 PaLI-X 作为其底座——单纯的视觉语言模型可以通过网络级的数据训练出来,因为数据量足够大,能够得到足够好的效果,而在微调(fine-tuning)阶段,再将机器人的动作数据 ...