Skip to main content
大模型(LLMs)基础面
一、介绍大模型
大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。
大语言模型(Large Language Model,LLM)是针对语言的大模型。
大模型后面跟的6B、13B等,这些一般指参数的个数,B是Billion/十亿的意思。
二、主流框架体系
大模型主要架构分为三种::prefix Decoder 系、causal Decoder 系、Encoder-Decoder。
##### 第一种:prefix Decoder系
*
- 介绍:输入双向注意力,输出单向注意力
* - 代表模型:ChatGLM、ChatGLM2、U-PaLM
#####
第二种 :causal Decoder系
*
- 介绍:从左到右的单向注意力
* - 代表模型:LLaMA-7B、LLaMa衍生物
#####
第三种:Encoder-Decoder
*
- 介绍:输入双向注意力,输出单向注意力
* - 代表模型:T5、Flan-T5、BART
二、prefix Decoder 和 causal Decoder 和 Encoder-Decoder区别是什么?
prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是在于 attention mask不同:
- Encoder-Decoder:
- 在输入上采用双向注意力,对问题的编码理解更充分
- 适用任务:在偏理解的NLP任务上效果好
- 缺点:在长文本生成任务上效果差,训练效率低
- causal Decoder:
- 自回归语义模型,预训练和下游应用是完全一致的,严格遵守 只有后面的token才能看到前面的token的规则
- 适用于任务:文本生成任务效果好
- 优点:训练效率高,zero-shot能力更强,具有涌现能力
- prefix Decoder:
- 特点:prefix部分的token互相能看到 ,causal Decoder 和 Encoder-Decoder 折中
- 缺点:训练效率低