Skip to main content

大模型(LLMs)基础面

一、目前主流的开源模型体系分三种

第一种:prefix Decoder系
  • 介绍:输入双向注意力,输出单向注意力
  • 代表模型:ChatGLM、ChatGLM2、U-PaLM
第二种 :causal Decoder系
  • 介绍:从左到右的单向注意力
  • 代表模型:LLaMA-7B、LLaMa衍生物
第三种:Encoder-Decoder
  • 介绍:输入双向注意力,输出单向注意力
  • 代表模型:T5、Flan-T5、BART

二、prefix Decoder 和 causal Decoder 和 Encoder-Decoder区别是什么?

prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是在于 attention mask不同:
  • Encoder-Decoder:
    • 在输入上采用双向注意力,对问题的编码理解更充分
    • 适用任务:在偏理解的NLP任务上效果好
    • 缺点:在长文本生成任务上效果差,训练效率低
  • causal Decoder:
    • 自回归语义模型,预训练和下游应用是完全一致的,严格遵守 只有后面的token才能看到前面的token的规则
    • 适用于任务:文本生成任务效果好
    • 优点:训练效率高,zero-shot能力更强,具有涌现能力
  • prefix Decoder:
    • 特点:prefix部分的token互相能看到 ,causal Decoder 和 Encoder-Decoder 折中
    • 缺点:训练效率低