Training in progress, step 20, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +25 -91
last-checkpoint/training_args.bin +2 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98be32f4a41642649aacca5df192eaa4c2826f0d9b4b944b1ce52ef184b53627
 size 324583112

 version https://git-lfs.github.com/spec/v1
+oid sha256:650e16f158fb094c89487e9d941f2e4920b88f8a613605d49400644f0803fd3d
 size 324583112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1220761571a71ca2bac986f5ea33b5cc8f2540e097cd4c51f33c54405af4585a
 size 330479994

 version https://git-lfs.github.com/spec/v1
+oid sha256:27170b5b9cff40e1f69eb68f8f59ef5361ad8f85ff7ae8b82e356f0eba879eff
 size 330479994

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9906b173df03663b222bd12a0e83af5aaa020a12d4ad3b4f49197437057c696b
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:02bd6697dd0ac01f79967d93e880e93c5ad7e5d6a672668dd596f9f42c435066
+size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7bf7c9d7fc97693b96ee7a514a4d88728c8624bc298bf36b68fd64703b6ce38
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1946c0d35865c02655624537450071d8e3a581f1d24f3c539357cae293b3d2d2
+size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cba90fd12df41e2a3afe0aa9bdbcb01ea64e70a37cf6d3f1b6f819528d9eedb2
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9faf933c304288a566e09316737d2bdccb42e76da4138d98110982bcbf5dbf1
+size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f677ceac78336a23596ad2dfff49115dd4f2798e6c718f3d9a417036aecc78d
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2cb6de5c0f2b78c1515e90a9ab03144587d336dd27fc87023f09785c5d64cb
+size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fce9536ff5f950cceb3fa69a1e2f266b5d6de86d1ea82239294fb327d0664db
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f22729b765b6841bd185712dd3ab8bf338866cd8396b5dce62f9950913691a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,115 +1,49 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09467455621301775,
   "eval_steps": 20,
-  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.001183431952662722,
-      "eval_loss": 3.952164649963379,
-      "eval_runtime": 2.765,
-      "eval_samples_per_second": 543.21,
-      "eval_steps_per_second": 33.996,
       "step": 1
     },
     {
-      "epoch": 0.011834319526627219,
-      "grad_norm": 1560.0,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 3.7217,
       "step": 10
     },
     {
-      "epoch": 0.023668639053254437,
-      "grad_norm": 588.0,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 3.6889,
       "step": 20
     },
     {
-      "epoch": 0.023668639053254437,
-      "eval_loss": 3.7026865482330322,
-      "eval_runtime": 2.7814,
-      "eval_samples_per_second": 540.023,
-      "eval_steps_per_second": 33.796,
       "step": 20
-    },
-    {
-      "epoch": 0.03550295857988166,
-      "grad_norm": 1104.0,
-      "learning_rate": 4.8e-05,
-      "loss": 3.6835,
-      "step": 30
-    },
-    {
-      "epoch": 0.047337278106508875,
-      "grad_norm": 728.0,
-      "learning_rate": 6.400000000000001e-05,
-      "loss": 3.6239,
-      "step": 40
-    },
-    {
-      "epoch": 0.047337278106508875,
-      "eval_loss": 3.7313880920410156,
-      "eval_runtime": 2.7224,
-      "eval_samples_per_second": 551.714,
-      "eval_steps_per_second": 34.528,
-      "step": 40
-    },
-    {
-      "epoch": 0.05917159763313609,
-      "grad_norm": 1264.0,
-      "learning_rate": 8e-05,
-      "loss": 3.6953,
-      "step": 50
-    },
-    {
-      "epoch": 0.07100591715976332,
-      "grad_norm": 628.0,
-      "learning_rate": 9.6e-05,
-      "loss": 4.0786,
-      "step": 60
-    },
-    {
-      "epoch": 0.07100591715976332,
-      "eval_loss": 4.402740955352783,
-      "eval_runtime": 2.7341,
-      "eval_samples_per_second": 549.363,
-      "eval_steps_per_second": 34.381,
-      "step": 60
-    },
-    {
-      "epoch": 0.08284023668639054,
-      "grad_norm": 177.0,
-      "learning_rate": 0.00011200000000000001,
-      "loss": 5.1332,
-      "step": 70
-    },
-    {
-      "epoch": 0.09467455621301775,
-      "grad_norm": 544.0,
-      "learning_rate": 0.00012800000000000002,
-      "loss": 6.3443,
-      "step": 80
-    },
-    {
-      "epoch": 0.09467455621301775,
-      "eval_loss": 6.491352558135986,
-      "eval_runtime": 2.8019,
-      "eval_samples_per_second": 536.068,
-      "eval_steps_per_second": 33.549,
-      "step": 80
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 40,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -122,8 +56,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1951231694077952.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3333333333333335,
   "eval_steps": 20,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16666666666666666,
+      "eval_loss": 3.877518653869629,
+      "eval_runtime": 5.1478,
+      "eval_samples_per_second": 291.579,
+      "eval_steps_per_second": 2.525,
       "step": 1
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 50.75,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 8.3623,
       "step": 10
     },
     {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 70.5,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 7.7135,
       "step": 20
     },
     {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 7.355209827423096,
+      "eval_runtime": 5.3218,
+      "eval_samples_per_second": 282.048,
+      "eval_steps_per_second": 2.443,
       "step": 20
     }
   ],
   "logging_steps": 10,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 17,
+  "save_steps": 20,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3647162210582528.0,
+  "train_batch_size": 30,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca8d159720c49ca51f8eb0994bc3f3c8474920a7e87f735362a6f81f5852cd00
-size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:6814dea57c4e9c5e3cc740573e43698239e823a9436395fe2f363fffc34e7212
+size 6840