Skip to main content
大模型(LLMs)基础面
一、目前主流的开源模型体系分三种
第一种:prefix Decoder系
- 介绍:输入双向注意力,输出单向注意力
- 代表模型:ChatGLM、ChatGLM2、U-PaLM
第二种 :causal Decoder系
- 介绍:从左到右的单向注意力
- 代表模型:LLaMA-7B、LLaMa衍生物
第三种:Encoder-Decoder
- 介绍:输入双向注意力,输出单向注意力
- 代表模型:T5、Flan-T5、BART
二、prefix Decoder 和 causal Decoder 和 Encoder-Decoder区别是什么?
prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是在于 attention mask不同:
- Encoder-Decoder:
- 在输入上采用双向注意力,对问题的编码理解更充分
- 适用任务:在偏理解的NLP任务上效果好
- 缺点:在长文本生成任务上效果差,训练效率低
- causal Decoder:
- 自回归语义模型,预训练和下游应用是完全一致的,严格遵守 只有后面的token才能看到前面的token的规则
- 适用于任务:文本生成任务效果好
- 优点:训练效率高,zero-shot能力更强,具有涌现能力
- prefix Decoder:
- 特点:prefix部分的token互相能看到 ,causal Decoder 和 Encoder-Decoder 折中
- 缺点:训练效率低