train_mnli_1744902582

This model is a fine-tuned version of google/gemma-3-1b-it on the mnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0845
  • Num Input Tokens Seen: 64338040

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1535 0.0091 200 0.1705 320544
0.1211 0.0181 400 0.1530 640416
0.1541 0.0272 600 0.1465 964160
0.2046 0.0362 800 0.1258 1285344
0.148 0.0453 1000 0.1262 1608256
0.1191 0.0543 1200 0.1191 1932352
0.1191 0.0634 1400 0.1202 2252192
0.1088 0.0724 1600 0.1193 2579136
0.1152 0.0815 1800 0.1181 2898880
0.1721 0.0905 2000 0.1164 3221312
0.1332 0.0996 2200 0.1240 3542752
0.1276 0.1086 2400 0.1302 3866688
0.1172 0.1177 2600 0.1117 4189440
0.1201 0.1268 2800 0.1113 4512768
0.123 0.1358 3000 0.1322 4833792
0.0942 0.1449 3200 0.1063 5157664
0.1339 0.1539 3400 0.1086 5479168
0.1385 0.1630 3600 0.1039 5803680
0.1557 0.1720 3800 0.1080 6125472
0.0776 0.1811 4000 0.1126 6448128
0.0777 0.1901 4200 0.1041 6771360
0.108 0.1992 4400 0.1052 7097088
0.0915 0.2082 4600 0.1083 7418432
0.0714 0.2173 4800 0.1072 7739200
0.0678 0.2264 5000 0.1044 8062528
0.0821 0.2354 5200 0.1057 8382240
0.1093 0.2445 5400 0.1092 8703872
0.0762 0.2535 5600 0.1094 9021760
0.128 0.2626 5800 0.0988 9343744
0.0684 0.2716 6000 0.1041 9663168
0.1158 0.2807 6200 0.1022 9983680
0.1269 0.2897 6400 0.1017 10305504
0.0689 0.2988 6600 0.0983 10628064
0.0815 0.3078 6800 0.0999 10947264
0.0874 0.3169 7000 0.0978 11268736
0.0833 0.3259 7200 0.0984 11593952
0.1165 0.3350 7400 0.1033 11912448
0.0538 0.3441 7600 0.0952 12230144
0.0703 0.3531 7800 0.0958 12551712
0.0885 0.3622 8000 0.0970 12870016
0.0792 0.3712 8200 0.0978 13192096
0.0918 0.3803 8400 0.1067 13513696
0.0809 0.3893 8600 0.0980 13838880
0.0965 0.3984 8800 0.1016 14159072
0.0577 0.4074 9000 0.0946 14481184
0.0983 0.4165 9200 0.0967 14802624
0.1019 0.4255 9400 0.0970 15129216
0.0881 0.4346 9600 0.0934 15445632
0.105 0.4436 9800 0.0942 15768224
0.0686 0.4527 10000 0.0936 16090112
0.0819 0.4618 10200 0.0992 16413248
0.1011 0.4708 10400 0.0928 16741440
0.1273 0.4799 10600 0.0930 17061536
0.0723 0.4889 10800 0.0981 17383360
0.1087 0.4980 11000 0.0936 17708608
0.0895 0.5070 11200 0.0917 18032288
0.0903 0.5161 11400 0.0939 18353024
0.1027 0.5251 11600 0.0935 18677184
0.0949 0.5342 11800 0.0950 18999136
0.0945 0.5432 12000 0.0920 19316576
0.0735 0.5523 12200 0.0940 19640544
0.0883 0.5614 12400 0.0926 19959648
0.0895 0.5704 12600 0.0915 20279232
0.0716 0.5795 12800 0.0930 20601792
0.0485 0.5885 13000 0.0905 20923456
0.0869 0.5976 13200 0.0943 21242368
0.0983 0.6066 13400 0.0900 21561952
0.1246 0.6157 13600 0.0920 21881856
0.0698 0.6247 13800 0.0900 22210080
0.0763 0.6338 14000 0.0911 22529216
0.1012 0.6428 14200 0.0929 22849376
0.0908 0.6519 14400 0.0888 23171168
0.0858 0.6609 14600 0.0941 23493152
0.1185 0.6700 14800 0.0913 23815360
0.0949 0.6791 15000 0.0906 24137696
0.0708 0.6881 15200 0.0911 24455584
0.0661 0.6972 15400 0.0888 24779040
0.072 0.7062 15600 0.0895 25099584
0.0543 0.7153 15800 0.0895 25420512
0.0658 0.7243 16000 0.0891 25746912
0.0914 0.7334 16200 0.0942 26070048
0.1036 0.7424 16400 0.0892 26389952
0.1364 0.7515 16600 0.0886 26706080
0.125 0.7605 16800 0.0916 27029344
0.0805 0.7696 17000 0.0883 27349920
0.0832 0.7787 17200 0.0879 27671008
0.0703 0.7877 17400 0.0870 27993280
0.0633 0.7968 17600 0.0879 28319712
0.0598 0.8058 17800 0.0887 28640832
0.1037 0.8149 18000 0.0902 28964096
0.0831 0.8239 18200 0.0876 29286752
0.0762 0.8330 18400 0.0878 29606528
0.0835 0.8420 18600 0.0905 29925408
0.0688 0.8511 18800 0.0886 30247104
0.0666 0.8601 19000 0.0875 30566528
0.0816 0.8692 19200 0.0872 30887744
0.0825 0.8782 19400 0.0868 31208352
0.1055 0.8873 19600 0.0899 31526720
0.0832 0.8964 19800 0.0884 31848736
0.076 0.9054 20000 0.0869 32169056
0.0791 0.9145 20200 0.0876 32490752
0.0873 0.9235 20400 0.0875 32813120
0.0567 0.9326 20600 0.0875 33133696
0.0777 0.9416 20800 0.0871 33452320
0.0595 0.9507 21000 0.0867 33776032
0.0841 0.9597 21200 0.0861 34099680
0.0612 0.9688 21400 0.0870 34424928
0.1127 0.9778 21600 0.0866 34748544
0.095 0.9869 21800 0.0866 35071104
0.0664 0.9959 22000 0.0871 35388960
0.0578 1.0050 22200 0.0866 35712792
0.0882 1.0140 22400 0.0892 36032952
0.0778 1.0231 22600 0.0869 36353656
0.0835 1.0321 22800 0.0869 36671480
0.0544 1.0412 23000 0.0874 36990680
0.056 1.0503 23200 0.0854 37312248
0.1048 1.0593 23400 0.0887 37633848
0.0911 1.0684 23600 0.0861 37954104
0.1122 1.0774 23800 0.0872 38272056
0.0483 1.0865 24000 0.0876 38594968
0.0887 1.0955 24200 0.0901 38918264
0.1127 1.1046 24400 0.0856 39242584
0.0906 1.1136 24600 0.0886 39566872
0.0558 1.1227 24800 0.0875 39889656
0.0944 1.1317 25000 0.0869 40209528
0.0822 1.1408 25200 0.0861 40535352
0.1023 1.1498 25400 0.0882 40858264
0.0977 1.1589 25600 0.0858 41182296
0.0388 1.1680 25800 0.0859 41502296
0.0713 1.1770 26000 0.0874 41824280
0.0604 1.1861 26200 0.0876 42148504
0.1098 1.1951 26400 0.0865 42470008
0.053 1.2042 26600 0.0856 42789400
0.0819 1.2132 26800 0.0856 43109688
0.0532 1.2223 27000 0.0879 43433720
0.065 1.2313 27200 0.0860 43755288
0.0514 1.2404 27400 0.0861 44072376
0.1051 1.2494 27600 0.0853 44391832
0.0637 1.2585 27800 0.0857 44714776
0.0804 1.2675 28000 0.0859 45035480
0.0896 1.2766 28200 0.0862 45354808
0.1084 1.2857 28400 0.0853 45678200
0.0666 1.2947 28600 0.0875 45998328
0.1224 1.3038 28800 0.0863 46314552
0.0676 1.3128 29000 0.0853 46639640
0.0986 1.3219 29200 0.0854 46962616
0.0779 1.3309 29400 0.0854 47284152
0.0794 1.3400 29600 0.0850 47605208
0.0747 1.3490 29800 0.0847 47925944
0.0913 1.3581 30000 0.0856 48250168
0.0698 1.3671 30200 0.0861 48570040
0.0864 1.3762 30400 0.0853 48891448
0.0776 1.3853 30600 0.0857 49216568
0.0742 1.3943 30800 0.0851 49535352
0.0803 1.4034 31000 0.0852 49859864
0.0837 1.4124 31200 0.0847 50183160
0.0699 1.4215 31400 0.0852 50505176
0.0531 1.4305 31600 0.0848 50823608
0.0564 1.4396 31800 0.0859 51142072
0.0631 1.4486 32000 0.0850 51462648
0.0592 1.4577 32200 0.0857 51788568
0.064 1.4667 32400 0.0853 52107544
0.0591 1.4758 32600 0.0850 52430680
0.1137 1.4848 32800 0.0854 52750648
0.0894 1.4939 33000 0.0847 53070040
0.0839 1.5030 33200 0.0847 53392248
0.0831 1.5120 33400 0.0849 53715256
0.0609 1.5211 33600 0.0848 54035320
0.1093 1.5301 33800 0.0847 54359832
0.0536 1.5392 34000 0.0846 54681080
0.1067 1.5482 34200 0.0849 55004920
0.0412 1.5573 34400 0.0848 55328216
0.0642 1.5663 34600 0.0849 55651352
0.0699 1.5754 34800 0.0850 55973688
0.0628 1.5844 35000 0.0845 56295192
0.0881 1.5935 35200 0.0847 56617656
0.074 1.6025 35400 0.0846 56938168
0.0936 1.6116 35600 0.0849 57260536
0.082 1.6207 35800 0.0847 57581848
0.0869 1.6297 36000 0.0848 57900760
0.0756 1.6388 36200 0.0847 58226104
0.0888 1.6478 36400 0.0846 58548024
0.0644 1.6569 36600 0.0846 58869400
0.0596 1.6659 36800 0.0847 59192472
0.1094 1.6750 37000 0.0846 59516888
0.0484 1.6840 37200 0.0847 59840056
0.0344 1.6931 37400 0.0847 60166712
0.0713 1.7021 37600 0.0848 60488984
0.0511 1.7112 37800 0.0847 60810360
0.0543 1.7203 38000 0.0847 61132280
0.0516 1.7293 38200 0.0847 61456312
0.0517 1.7384 38400 0.0847 61776888
0.1122 1.7474 38600 0.0848 62093144
0.0697 1.7565 38800 0.0846 62410264
0.0818 1.7655 39000 0.0847 62732824
0.0834 1.7746 39200 0.0847 63054168
0.0911 1.7836 39400 0.0847 63375640
0.0571 1.7927 39600 0.0847 63697560
0.0432 1.8017 39800 0.0846 64016568
0.0412 1.8108 40000 0.0847 64338040

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
24
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_mnli_1744902582

Adapter
(81)
this model