参数类型 #

  • 权重(Weights):权重就像神经网络里的“电线”,连接着各个神经元。它们负责调整信号传递时的“音量”,让重要的信息传得更远,不那么重要的信息就小声点。比如在全连接层里,权重矩阵W就是一张“地图”,告诉我们哪些输入特征和输出特征关系最密切。
  • 偏置(Biases):偏置就像是神经元的“小助手”,负责给神经元的响应定个基准。有了它,神经元就知道自己该在什么水平上活跃了。 注意力机制的参数(Attention Parameters):在基于Transformer的模型中,这些参数就像是“指南针”,告诉模型哪些信息最值得关注。它们包括查询矩阵、键矩阵和值矩阵等,就像是在一大堆信息中找出最关键的“线索”。
  • 嵌入矩阵(Embedding Matrices):在处理文本数据时,嵌入矩阵就是模型的“字典”。每一列都代表一个词汇,用一个数来表示这个词。这样,模型就能理解文本的意思了。
  • 隐藏状态初始化参数(Initial Hidden State Parameters):这些参数就是用来设置模型最初的隐藏状态的,就像是给模型定个基调,让它知道从哪里开始“思考”。

参数的存取方式 #

一般来说,参数的数量是影响大模型性能的主要因素。例如,13B-int8 模型通常优于同一体系结构的 7B-BF16 模型。

这些参数一般会使用4种表达和存储的格式:

格式 说明
Float 32 比特的浮点数,即 4 字节
Half/BF16 16 比特的浮点数,即 2 字节
Int8 8 比特的整数,即 1 字节
Int4 4 比特的整数,即 0.5 字节

参数数量 #

Llama3-70B 代表该模型有 700 亿个参数。