雑記

bert-large-cased のパラメータ数は 340M とある。
Pretrained models — transformers 3.1.0 documentation
→ 333579264 だった。
  script.py · GitHub


----------- モデルの埋め込み層 ---------- word_embeddings.weight 29691904 position_embeddings.weight 524288 token_type_embeddings.weight 2048 LayerNorm.weight 1024 LayerNorm.bias 1024 ---------- モデルのエンコーダ層 ---------- attention.self.query.weight 1048576 attention.self.query.bias 1024 attention.self.key.weight 1048576 attention.self.key.bias 1024 attention.self.value.weight 1048576 attention.self.value.bias 1024 attention.output.dense.weight 1048576 attention.output.dense.bias 1024 attention.output.LayerNorm.weight 1024 attention.output.LayerNorm.bias 1024 intermediate.dense.weight 4194304 intermediate.dense.bias 4096 output.dense.weight 4194304 output.dense.bias 1024 output.LayerNorm.weight 1024 output.LayerNorm.bias 1024 エンコーダ層内の0層目計 12596224 エンコーダ層内の1層目計 12596224 エンコーダ層内の2層目計 12596224 エンコーダ層内の3層目計 12596224 エンコーダ層内の4層目計 12596224 エンコーダ層内の5層目計 12596224 エンコーダ層内の6層目計 12596224 エンコーダ層内の7層目計 12596224 エンコーダ層内の8層目計 12596224 エンコーダ層内の9層目計 12596224 エンコーダ層内の10層目計 12596224 エンコーダ層内の11層目計 12596224 エンコーダ層内の12層目計 12596224 エンコーダ層内の13層目計 12596224 エンコーダ層内の14層目計 12596224 エンコーダ層内の15層目計 12596224 エンコーダ層内の16層目計 12596224 エンコーダ層内の17層目計 12596224 エンコーダ層内の18層目計 12596224 エンコーダ層内の19層目計 12596224 エンコーダ層内の20層目計 12596224 エンコーダ層内の21層目計 12596224 エンコーダ層内の22層目計 12596224 エンコーダ層内の23層目計 12596224 ---------- モデルのプーラー層 ---------- dense.weight 1048576 dense.bias 1024 ========== パラメータ数 ========== 333579264