Skip to main content

大模型(LLMs)基础面

一、介绍大模型

大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。
大语言模型(Large Language Model,LLM)是针对语言的大模型。
大模型后面跟的6B、13B等,这些一般指参数的个数,B是Billion/十亿的意思。

二、主流框架体系

大模型主要架构分为三种::prefix Decoder 系、causal Decoder 系、Encoder-Decoder。
##### 第一种:prefix Decoder系 * 介绍:输入双向注意力,输出单向注意力 * 代表模型:ChatGLM、ChatGLM2、U-PaLM ##### 第二种 :causal Decoder系 * 介绍:从左到右的单向注意力 * 代表模型:LLaMA-7B、LLaMa衍生物 ##### 第三种:Encoder-Decoder * 介绍:输入双向注意力,输出单向注意力 * 代表模型:T5、Flan-T5、BART

二、prefix Decoder 和 causal Decoder 和 Encoder-Decoder区别是什么?

prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是在于 attention mask不同:
  • Encoder-Decoder:
    • 在输入上采用双向注意力,对问题的编码理解更充分
    • 适用任务:在偏理解的NLP任务上效果好
    • 缺点:在长文本生成任务上效果差,训练效率低
  • causal Decoder:
    • 自回归语义模型,预训练和下游应用是完全一致的,严格遵守 只有后面的token才能看到前面的token的规则
    • 适用于任务:文本生成任务效果好
    • 优点:训练效率高,zero-shot能力更强,具有涌现能力
  • prefix Decoder:
    • 特点:prefix部分的token互相能看到 ,causal Decoder 和 Encoder-Decoder 折中
    • 缺点:训练效率低