
新媒易动态
NEWS CENTER
NEWS CENTER
2023-12-09
这个被谷歌称为规划最大、才能最强的人工智能模型,假如光看官方的演示视频,那真的过于高档了点。
在视频里, Gemini 不只秒识别演示者画的画、放的视频、做的小把戏、玩的恶作剧,并且整个过程中对答如流,各种语气助词熟练得飞起。
假如没提前说,你甚至都会认为这便是电影里的贾维斯。
要真这么牛逼,还要什么 GPT-4 啊?
目前现在大家能用上的都是 Gemini Pro ,而大部分的测验演示都是根据“超大杯”Gemini Ultra 来的。
从官方放出的数据来看,尽管每个版别都有自己适宜的环境,但不同版别间,功能还是有着显着差异的。
而“超大杯”的 Gemini Ultra 的才能确实是杠杠的。
不只在各种惯例测验里都薄纱了 GPT-4 。
甚至在MMLU(大规划多任务言语理解)测验里,Gemini Ultra超过GPT-4还不行,还逾越了人类专家,成为了第一个在该方面逾越人类的模型。
除了在惯例才能上的全面逾越 GPT-4 , Gemini 最特别的一点是,它是谷歌带来的首个多模态大模型,也便是能不光能打字互动,也能进行语音、视频、图片的互动。
按照谷歌的说法,现有的所谓多模态大模型,都是单独训练了文本、视觉和音频等模型,再把这几个拼接起来。
这样出来的“散装”多模态大模型,在遇到图片、文字、语音或者视频一起出现时,只会分解出不同模块各自回答,然后汇总各个部分的回答最后构成答案。
而 Gemini 从根上便是个多模态模型,然后又通过大量多模态数据训练,它可以一开始就同步理解多模态。
这就比如遇到一个中日韩英稠浊的旅游团,以往都是找懂对应言语的导游组成导游团去带队。
而 Gemini 的做法是找了一个通晓中日韩英四门言语的导游,一个人就能无缝安排所有游客。
所以不出意外,在此前 GPT-4V “遥遥领先”的多模态测验里, Gemini 也呈现了一种全面逾越的姿势。
但也便是看起来过于牛逼,以至于显得不行实在,所以 Gemini 也在网上招来不少质疑。
比如有人吐槽分明 90.0%和 89.8%就差了千分之二,成果图里看起来像是巨大提高。
并且不少人还发现在不少测验里,谷歌用了些“春秋办法”。
因为给 Gemini Ultra 和 GPT-4 使用的测验办法并不一样, Gemini Ultra 用的是自家特调的全新办法 CoT@32*。
在这种新办法下, GPT-4 得分提高一般般,而 Gemini 却前进显着。