谷歌的“塌房”来的有点快。
前一天刚刚推出Gemini大模型,被赞史上最强,力压ChatGPT。而后一天上线首日就被质疑发会上的演示视频为造假,Gemini并没有谷歌演示的那么好。
图源:网络
而事实确实如机器学习讲师Santiago Valdarrama猜测的那样,视频是精心挑选的好结果,而且不是实时录制而是剪辑的。
谷歌承认了。
Google DeepMind的研究副总裁Oriol Vinyals表示,Demo视频里的内容是使用 Ultra 模型做到的。视频中的所有人类提示和 AI 输出都是真实的,但为简洁起见进行了缩短。
此种说法看似自相矛盾,实则就是承认视频存在剪辑优化的事实。
虽然此举网友并不认可,股民却非常看好谷歌的大模型,谷歌母公司Alphabet的股价12月7日收盘大幅上涨了5.3%,激增了逾800亿美元。华尔街更为认为这一号称谷歌史上“最大、最强”的AI模型,将有助于缩小乃至彻底抹平其与微软支持的OpenAI之间的差距。
那么,毁誉参半的谷歌Gemini还能否与ChatGPT争锋?
"这一新时代的模型代表着我们公司迄今为止所进行的最大的科学和工程努力之一," Google首席执行官桑达尔·皮查伊在一篇博客文章中写道。
谷歌Gemini能够接受多种输入方法,例如照片、音频和视频。通常,创建多模型模型的标准方法涉及为不同的模态训练单独的组件,然后将它们拼接在一起。
皮查伊表示,“这些模型有时在执行某些任务方面表现良好,比如描述图像,但在更概念性和复杂的推理方面表现困难。我们设计Gemini从一开始就是本地多模态的,对不同的模态进行了预训练。然后,我们使用额外的多模态数据对其进行了微调,以进一步提高其效果。”
但在经过网友的认真研究之后,发现事实并未如谷歌形容的那么好。
推特用户Brett Winton 对Gemini Pro、Claude和GPT-3.5进行了基准测试,对每个模型提了一道8年级的故事题。他得出的结论是:GPT-3.5满分、Claude约67分,Gemini Pro完全没有那个味。
很显然,Gemini Pro完败GPT-3.5。
当然,Gemini Pro并不是Gemini最强的版本。谷歌推出的三个版本,用于高度复杂任务的最大且最功能强大的模型、“最适合”在各种任务中扩展的模型Gemini Pro以及为设备端任务创建的版本Gemini Nano。
图源:网络
能力最强是Gemini Ultra,在谷歌给出的数据中,Gemini Ultra全面超越GPT-4。但Gemini Ultra预计明年初才能通过Bard Advanced面世,真相如何尚未可知。
但从Gemini Pro的表现来看,Gemini Ultra令人担忧。
尽管网友对谷歌Gemini当前的表现存疑,但在研究人员看来,谷歌Gemini不必与GPT比参数,它的价值在于“原生多模态”。
“原生多模态”是指将不同模态的信息(如视觉、听觉、语言等)进行融合,通过多种媒体形式进行表达和传递。在现实世界中,人们接收和理解信息的方式往往是多模态的,通过同时获取不同感官的输入,融合多种信息来源来构建对世界的认知。
图源:网络
有媒体评价,“据称,Gemini开启了一个新时代,超越了主要以文本为基础的大语言模型,这可能为新一轮人工智能产品奠定基础,这些产品与ChatGPT所支持的产品截然不同。”
谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)在接受媒体采访时强调,Gemini是人工智能的新品种——“原生多模态”,区别于现有的“拼凑多模态”模型,即从一开始就使用多种模态(例如音频、视频和图像)训练而成。因此,Gemini开辟了一条人工智能领域前所未见的道路,可能会带来重大的新突破。
“我们一直希望构建新一代人工智能模型,其灵感来自于人们理解世界和与世界互动的方式。人工智能感觉不太像一个智能软件,而更像是有用且直观的东西——一个专家帮助者或助手。”
哈萨比斯表示,为了提供能够以当前聊天机器人无法做到的方式理解世界的人工智能系统,大语言模型还需要与其他人工智能技术相结合。
Gemini正是如此,推动了人工智能的重大进展。
评论