(资料图片)
尽管由于ChatGPT、Bing Chat、Meta"s Llama和Google Bard的普及,由大型语言模型 (LLM) 驱动的 AI 聊天机器人如今占据了头条新闻,但这只是 AI 领域的一小部分。多年来积极探索的另一个领域是机器人硬件,利用复杂的技术来取代或协助人类。谷歌现在宣布以新的人工智能模型的形式在这一领域取得进展。
谷歌推出了Robotics Tranormer 2 (RT-2),这是其最新的人工智能模型,其目的非常明确:将你想要的动作传达给机器人。它利用新颖的技术来实现这一目的,并由独特的视觉语言动作(VLA)提供支持,谷歌声称这是同类中的第一个。尽管 RT-1 和 PaLM-E 等之前的几个模型在提高机器人推理能力并确保它们相互学习方面取得了进步,但科幻电影中展示的机器人主导的世界仍然看起来像是来自极其遥远的世界。未来。
RT-2 旨在通过确保机器人在最少或没有支持的情况下完全理解周围的世界,从而缩小虚构与现实之间的差距。原则上,它与法学硕士非常相似,它使用基于 Tranormer 的模型从网络上提供的文本和视觉信息中了解世界,然后将其转化为机器人动作,即使是在未经明确训练的测试用例上也是如此。
Google 解释了几个用例来解释 RT-2 的功能。例如,如果您要求 RT-2 动力机器人将垃圾扔进垃圾箱,它可以轻松了解垃圾是什么、如何将其与环境中存在的其他物体区分开来、如何机械移动和拾取垃圾以及如何将其丢弃到垃圾箱中,所有这些都没有经过些活动的专门培训。
谷歌还分享了 RT-2 测试的一些相当令人印象深刻的结果。在 6,000 多次试验中,RT-2 被证明在“可见”任务方面与其前身一样出色。更有趣的是,在未见过的场景中,它的得分为 62%,而 RT-1 的得分为 32%,性能提高了近两倍。虽然这种技术的应用似乎已经非常明显,但它确实需要很长时间才能成熟,因为现实世界的用例有时需要严格的测试,甚至需要监管部门的批准,这是可以理解的。目前,您可以在Google DeepMind 的博客中阅读有关 RT-2 后端机制的更多信息。