当前位置：首页 >新媒易动态 >视频号购买

大模型单独训练了文本、视觉和音频等模型，再把这几个拼接起来

2023-12-09

这个被谷歌称为规划最大、才能最强的人工智能模型，假如光看官方的演示视频，那真的过于高档了点。

在视频里， Gemini 不只秒识别演示者画的画、放的视频、做的小把戏、玩的恶作剧，并且整个过程中对答如流，各种语气助词熟练得飞起。

假如没提前说，你甚至都会认为这便是电影里的贾维斯。

要真这么牛逼，还要什么 GPT-4 啊？

目前现在大家能用上的都是 Gemini Pro ，而大部分的测验演示都是根据“超大杯”Gemini Ultra 来的。

从官方放出的数据来看，尽管每个版别都有自己适宜的环境，但不同版别间，功能还是有着显着差异的。

而“超大杯”的 Gemini Ultra 的才能确实是杠杠的。

不只在各种惯例测验里都薄纱了 GPT-4 。

甚至在MMLU（大规划多任务言语理解）测验里，Gemini Ultra超过GPT-4还不行，还逾越了人类专家，成为了第一个在该方面逾越人类的模型。

除了在惯例才能上的全面逾越 GPT-4 ， Gemini 最特别的一点是，它是谷歌带来的首个多模态大模型，也便是能不光能打字互动，也能进行语音、视频、图片的互动。

按照谷歌的说法，现有的所谓多模态大模型，都是单独训练了文本、视觉和音频等模型，再把这几个拼接起来。

这样出来的“散装”多模态大模型，在遇到图片、文字、语音或者视频一起出现时，只会分解出不同模块各自回答，然后汇总各个部分的回答最后构成答案。

而 Gemini 从根上便是个多模态模型，然后又通过大量多模态数据训练，它可以一开始就同步理解多模态。

这就比如遇到一个中日韩英稠浊的旅游团，以往都是找懂对应言语的导游组成导游团去带队。

而 Gemini 的做法是找了一个通晓中日韩英四门言语的导游，一个人就能无缝安排所有游客。

所以不出意外，在此前 GPT-4V “遥遥领先”的多模态测验里， Gemini 也呈现了一种全面逾越的姿势。

但也便是看起来过于牛逼，以至于显得不行实在，所以 Gemini 也在网上招来不少质疑。

比如有人吐槽分明 90.0%和 89.8%就差了千分之二，成果图里看起来像是巨大提高。

并且不少人还发现在不少测验里，谷歌用了些“春秋办法”。

因为给 Gemini Ultra 和 GPT-4 使用的测验办法并不一样， Gemini Ultra 用的是自家特调的全新办法 CoT@32*。

在这种新办法下， GPT-4 得分提高一般般，而 Gemini 却前进显着。