(本文首发于知乎

GPT 时刻还难说,但是 LVM 确实是个很有趣的工作。之所以这个工作还没发布源码就已经收获这么多关注,这两天跟我聊的很多人都提到这个工作,根本原因是 LVM 跟大家想象中的端到端视觉大模型架构很类似,我猜测 GPT-4V 可能也是类似的架构。

现在的多模态大模型原理基本上都是一个固定的文本大模型(比如 llama)接上一个固定的 encoder,一个固定的 decoder,中间训练一个薄薄的 projection layer(胶水层)把 encoder/decoder 和中间的 transformer 粘起来。MiniGPT-4,LLaVA,最近的 MiniGPT-v2(还加了 Meta 的作者,值得看看)都是这个思路。

这些现有的多模态大模型 demo 效果不错,但是有一些根本的问题。例如,语音识别的准确率不高,语音合成的清晰度也不高,比不上专门干这个的 Whisper 和 vits。图片生成的精细度也比不上 stable diffusion。更别谈输入和输出图像或语音之间需要做精确对应的任务了,例如把输入图像中的 logo 放到根据 prompt 生成的输出图像上,或者做 xtts-v2 这样的 voice style transfer。这是一个有趣的现象,虽然理论上这个 projection layer 可以建模更复杂的信息,但实际效果还不如使用文本作为中间表达的准确率高。

其根本原因就是文本大模型训练的过程中缺失图像信息,导致编码空间不匹配。就好像一个先天盲人,就算读了再多文字,有些关于色彩的信息仍然是缺失的。

所以我一直认为多模态大模型应该在预训练阶段就引入文本、图像和语音数据,而不是分别预训练各种模态的模型,再把不同模态的模型拼接起来。

LVM 这篇工作的有趣之处在于,证明了即使仅仅使用图像模态的数据,不需要任何文本标注,都可以在图像补全任务中获得不错的结果,甚至可以对图像中的逻辑有一些理解能力(例如一些智力测试题)。

这跟动物是类似的,大多数动物没有语言,但是视觉和听觉系统很发达,它们不需要把图像转换成语言,就可以实现复杂的图像理解。

当然,这不是说未来的大模型就要只使用图像模态的数据。真正可以称得上是 GPT 时刻的视觉大模型一定是使用了文本、图像和语音多种模态进行预训练。它的架构很可能跟 LVM 这篇 paper 类似,使用 VQ-VAE 或者 VQ-GAN 作为 encoder/decoder,使用 Transformer 作为 autoregressive model 的主体部分。

有些人会问多模态数据从哪里找。

事实上世界上的所有网站、app、书籍、报刊、杂志都是图像和文本双模态的。是否可以考虑把网站、app 的截图和书籍的影印照片直接作为多模态数据来喂给大模型呢?考虑到一张中等分辨率的图片经过 encoder 之后也就几百个 token,跟图片中能包含的文字数量也差不多,那是不是连 OCR 都省了?事实上书籍 OCR 之后丢失了很多信息,例如教科书和理工科专业书中有很多插图和公式,OCR 之后基本上都丢失了。而且像汉字里面关于结构的信息目前的大模型基本是缺失的,因此很难理解火星文和 ASCII Art。

我猜想,如果使用 LVM 的架构,换用网站截图和书籍影印照片作为数据集,完全不需要标注,肯定能学到兼具文本和视觉的多模态能力,这说不定可以搞出一个大新闻。目前 LVM 数据集里面的图片里面肯定有一些是网站截图和书籍照片,但估计占比不大,因此尚不足以学到看图识字的能力。

此外,YouTube 视频和 Netflix 上的剧可是非常多,这些都是多模态数据呀。Whisper 就使用了大量带字幕的影视数据做训练,Whisper 经常就把空白语音识别成了 “XXX 字幕组”。

看到一些人在喷 GPT 时刻这个词,其实论文中只是模仿微软的那篇 paper 提到了 Sparks of AGI,没有碰瓷 GPT,GPT 估计是自媒体的小编加的。我还是认为,可以称得上 GPT 时刻的视觉模型一定是用文本、图像和语音多模态数据预训练出来的多模态模型。

我一直认为数据是非常重要的。LVM 说明 Transformer 喂进去图像数据就能学会视觉,Whisper 说明 Transformer 喂进去语音数据就能学会语音,Transformer 甚至还可以做 AI for science 里面的序列分析。最近也有一些 Transformer-only 的多模态 paper 发出来。Transformer-only 的架构有可能是解决多模态的通用方案。

最近 Berkeley 搞的 Starling 7B 模型在 roleplay,writing 和 reasoning 这些通用能力上接近 70B 模型,但在 MMLU 这些事实性的回答上仍然水平没有太多提升(这个主要取决于模型容量),就是因为用了新的微调方法,喂进去大量 GPT-4 生成的高质量数据。

现在国内很多做基础大模型公司都在用类似的方法从 GPT-4 里面蒸馏数据,有的公司甚至一个月就花上千万的 GPT API 成本,OpenAI 的很大一部分营收竟然是帮其他做大模型的公司整理训练数据。

Twitter 早就发现了这个卖数据的生财之道,从 2023 年 7 月就限制了爬虫,一个能获取所有历史 Twitter 的开发者账号一个月要 5000 美金,还只能获取 100 万条,相当于看一条 Twitter 要收 0.005 美金,看完 Elon Musk 的 30000 条 Twitter 要花 150 美金。

Character AI 之所以可以只用 3B 的模型,就可以知道很多关于名人和二次元人物的事实,模仿他们的语气,而且说话更像人的交流,不会像 ChatGPT 那样冗长,就是因为它的训练数据中包含大量的 conversational 数据。这样大小的 3B 模型经过适当的优化甚至可以放进手机里,这将开启一个全新的世界。

大部分刚开始做基础大模型的公司都在想着把模型做大,但走在前面的 OpenAI 和 Character 已经在想着把模型做小。GPT-3.5-Turbo 通过 MoE 架构,每次推理只需要激活 20B 左右的参数。GPT-4-Turbo 很可能也是通过模型蒸馏的方法把 GPT-4 的参数量缩小,从而降低推理成本。据说 GPT-5 将包含上千个 expert。国内一些公司虽然已经做到接近 GPT-4 的参数量,但是完全是 dense 的,结果推理成本高到无法忍受。推理成本是非常重要的,否则就是卖得越多亏得越多。

我们自己在用 vits fine tuning 生成名人语音的时候,就发现 Elon Musk 很难搞,因为他讲话经常结巴,导致语音和 caption 对应不准确,训练语料质量不高。用 vits few shot 或者 xtts v2 反而效果更好些。但是 Donald Trump 和原神里的 Paimon 这些语音,由于数据本身的质量高,用 vits fine tune 出来的效果就非常好。

Comments

2023-12-06