diff --git "a/ckpt/magi/24B_base/inference_weight/model.safetensors.index.json" "b/ckpt/magi/24B_base/inference_weight/model.safetensors.index.json"
new file mode 100644--- /dev/null
+++ "b/ckpt/magi/24B_base/inference_weight/model.safetensors.index.json"
@@ -0,0 +1,1269 @@
+{
+  "metadata": {
+    "total_size": 47879112768
+  },
+  "weight_map": {
+    "final_linear.linear.weight": "model-00001-of-00006.safetensors",
+    "rope.bands": "model-00001-of-00006.safetensors",
+    "t_embedder.mlp.0.bias": "model-00001-of-00006.safetensors",
+    "t_embedder.mlp.0.weight": "model-00001-of-00006.safetensors",
+    "t_embedder.mlp.2.bias": "model-00001-of-00006.safetensors",
+    "t_embedder.mlp.2.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.final_layernorm.bias": "model-00001-of-00006.safetensors",
+    "videodit_blocks.final_layernorm.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.0.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.1.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.10.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.11.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.12.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.13.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.14.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.15.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.16.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.17.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.18.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.19.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.2.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.20.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.21.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.22.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.23.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.24.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.25.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.26.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.27.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.28.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.29.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.3.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.30.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.31.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.32.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.33.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.34.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.35.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.36.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.37.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.38.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.39.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.4.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.40.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.41.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.42.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.43.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.44.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.45.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.46.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.k.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.q.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.qx.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.linear_qkv.v.weight": "model-00005-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.47.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.5.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.6.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.7.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.8.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.ada_modulate_layer.proj.0.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp.linear_fc1.weight": "model-00003-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp.linear_fc2.weight": "model-00004-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.mlp_post_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.k_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_kv_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_proj.weight": "model-00002-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.k.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.layer_norm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.q.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.qx.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.linear_qkv.v.weight": "model-00001-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attention.q_layernorm_xattn.weight": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attn_post_norm.bias": "model-00006-of-00006.safetensors",
+    "videodit_blocks.layers.9.self_attn_post_norm.weight": "model-00006-of-00006.safetensors",
+    "x_embedder.weight": "model-00001-of-00006.safetensors",
+    "y_embedder.null_caption_embedding": "model-00001-of-00006.safetensors",
+    "y_embedder.y_proj_adaln.0.bias": "model-00001-of-00006.safetensors",
+    "y_embedder.y_proj_adaln.0.weight": "model-00001-of-00006.safetensors",
+    "y_embedder.y_proj_xattn.0.bias": "model-00001-of-00006.safetensors",
+    "y_embedder.y_proj_xattn.0.weight": "model-00001-of-00006.safetensors"
+  }
+}