lmy0802 commited on
Commit
8f8469f
·
verified ·
1 Parent(s): f887c3b

Upload 12 files

Browse files
evaluate_result/10_CodeFuse-DeepSeek-33b-result.json ADDED
@@ -0,0 +1,703 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 1.0
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 1.0
27
+ ],
28
+ [
29
+ 6,
30
+ 1.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 1.0
43
+ ],
44
+ [
45
+ 10,
46
+ 1.0
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 1.0
75
+ ],
76
+ [
77
+ 18,
78
+ 1.0
79
+ ],
80
+ [
81
+ 19,
82
+ 1.0
83
+ ],
84
+ [
85
+ 20,
86
+ 1.0
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 0.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 1.0
111
+ ],
112
+ [
113
+ 27,
114
+ 0.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 1.0
135
+ ],
136
+ [
137
+ 33,
138
+ 1.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 1.0
151
+ ],
152
+ [
153
+ 37,
154
+ 1.0
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 1.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 1.0
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 0.0
219
+ ],
220
+ [
221
+ 54,
222
+ 1.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 0.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.0
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 1.0
251
+ ],
252
+ [
253
+ 62,
254
+ 1.0
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 1.0
263
+ ],
264
+ [
265
+ 65,
266
+ 1.0
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 1.0
275
+ ],
276
+ [
277
+ 68,
278
+ 1.0
279
+ ],
280
+ [
281
+ 69,
282
+ 1.0
283
+ ],
284
+ [
285
+ 70,
286
+ 1.0
287
+ ],
288
+ [
289
+ 71,
290
+ 1.0
291
+ ],
292
+ [
293
+ 72,
294
+ 1.0
295
+ ],
296
+ [
297
+ 73,
298
+ 0.0
299
+ ],
300
+ [
301
+ 74,
302
+ 1.0
303
+ ],
304
+ [
305
+ 75,
306
+ 1.0
307
+ ],
308
+ [
309
+ 76,
310
+ 1.0
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 1.0
319
+ ],
320
+ [
321
+ 79,
322
+ 1.0
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 1.0
331
+ ],
332
+ [
333
+ 82,
334
+ 1.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 1.0
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.0
351
+ ],
352
+ [
353
+ 87,
354
+ 1.0
355
+ ],
356
+ [
357
+ 88,
358
+ 1.0
359
+ ],
360
+ [
361
+ 89,
362
+ 1.0
363
+ ],
364
+ [
365
+ 90,
366
+ 1.0
367
+ ],
368
+ [
369
+ 91,
370
+ 1.0
371
+ ],
372
+ [
373
+ 92,
374
+ 1.0
375
+ ],
376
+ [
377
+ 93,
378
+ 1.0
379
+ ],
380
+ [
381
+ 94,
382
+ 1.0
383
+ ],
384
+ [
385
+ 95,
386
+ 1.0
387
+ ],
388
+ [
389
+ 96,
390
+ 1.0
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 1.0
399
+ ],
400
+ [
401
+ 99,
402
+ 1.0
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 1.0
411
+ ],
412
+ [
413
+ 102,
414
+ 1.0
415
+ ],
416
+ [
417
+ 103,
418
+ 1.0
419
+ ],
420
+ [
421
+ 104,
422
+ 1.0
423
+ ],
424
+ [
425
+ 105,
426
+ 1.0
427
+ ],
428
+ [
429
+ 106,
430
+ 1.0
431
+ ],
432
+ [
433
+ 107,
434
+ 1.0
435
+ ],
436
+ [
437
+ 108,
438
+ 1.0
439
+ ],
440
+ [
441
+ 109,
442
+ 1.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.0
451
+ ],
452
+ [
453
+ 112,
454
+ 1.0
455
+ ],
456
+ [
457
+ 113,
458
+ 0.0
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 1.0
467
+ ],
468
+ [
469
+ 116,
470
+ 0.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.0
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 1.0
483
+ ],
484
+ [
485
+ 120,
486
+ 1.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.0
491
+ ],
492
+ [
493
+ 122,
494
+ 1.0
495
+ ],
496
+ [
497
+ 123,
498
+ 0.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.0
503
+ ],
504
+ [
505
+ 125,
506
+ 1.0
507
+ ],
508
+ [
509
+ 126,
510
+ 1.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 0.0
519
+ ],
520
+ [
521
+ 129,
522
+ 1.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 1.0
535
+ ],
536
+ [
537
+ 133,
538
+ 1.0
539
+ ],
540
+ [
541
+ 134,
542
+ 1.0
543
+ ],
544
+ [
545
+ 135,
546
+ 1.0
547
+ ],
548
+ [
549
+ 136,
550
+ 1.0
551
+ ],
552
+ [
553
+ 137,
554
+ 1.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.0
559
+ ],
560
+ [
561
+ 139,
562
+ 1.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 1.0
575
+ ],
576
+ [
577
+ 143,
578
+ 0.0
579
+ ],
580
+ [
581
+ 144,
582
+ 0.0
583
+ ],
584
+ [
585
+ 145,
586
+ 1.0
587
+ ],
588
+ [
589
+ 146,
590
+ 1.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.0
595
+ ],
596
+ [
597
+ 148,
598
+ 0.0
599
+ ],
600
+ [
601
+ 149,
602
+ 0.0
603
+ ],
604
+ [
605
+ 150,
606
+ 0.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.0
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 1.0
619
+ ],
620
+ [
621
+ 154,
622
+ 1.0
623
+ ],
624
+ [
625
+ 155,
626
+ 1.0
627
+ ],
628
+ [
629
+ 156,
630
+ 1.0
631
+ ],
632
+ [
633
+ 157,
634
+ 0.0
635
+ ],
636
+ [
637
+ 158,
638
+ 1.0
639
+ ],
640
+ [
641
+ 159,
642
+ 0.0
643
+ ],
644
+ [
645
+ 160,
646
+ 1.0
647
+ ],
648
+ [
649
+ 161,
650
+ 1.0
651
+ ],
652
+ [
653
+ 162,
654
+ 1.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ]
661
+ },
662
+ "config": {
663
+ "prefix": "",
664
+ "do_sample": true,
665
+ "temperature": 0.2,
666
+ "top_k": 0,
667
+ "top_p": 0.95,
668
+ "n_samples": 20,
669
+ "eos": "<|endoftext|>",
670
+ "seed": 0,
671
+ "model": "CodeFuse-DeepSeek-33b",
672
+ "modeltype": "causal",
673
+ "peft_model": null,
674
+ "revision": null,
675
+ "use_auth_token": false,
676
+ "trust_remote_code": false,
677
+ "tasks": "humaneval",
678
+ "instruction_tokens": null,
679
+ "batch_size": 1,
680
+ "max_length_generation": 512,
681
+ "precision": "fp32",
682
+ "load_in_8bit": false,
683
+ "load_in_4bit": false,
684
+ "left_padding": false,
685
+ "limit": null,
686
+ "limit_start": 0,
687
+ "save_every_k_tasks": -1,
688
+ "postprocess": true,
689
+ "allow_code_execution": true,
690
+ "generation_only": false,
691
+ "load_generations_path": "10_CodeFuse-DeepSeek-33b.json",
692
+ "load_data_path": null,
693
+ "metric_output_path": "10_CodeFuse-DeepSeek-33b.json",
694
+ "save_generations": false,
695
+ "load_generations_intermediate_paths": null,
696
+ "save_generations_path": "generations.json",
697
+ "save_references": false,
698
+ "save_references_path": "references.json",
699
+ "prompt": "prompt",
700
+ "max_memory_per_gpu": null,
701
+ "check_references": false
702
+ }
703
+ }
evaluate_result/11_Nxcode-CQ-7B-orpo_result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 1.0
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 1.0
27
+ ],
28
+ [
29
+ 6,
30
+ 1.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.95
43
+ ],
44
+ [
45
+ 10,
46
+ 0.0
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 1.0
75
+ ],
76
+ [
77
+ 18,
78
+ 1.0
79
+ ],
80
+ [
81
+ 19,
82
+ 0.4999999999999999
83
+ ],
84
+ [
85
+ 20,
86
+ 1.0
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 1.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 0.3500000000000001
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.85
135
+ ],
136
+ [
137
+ 33,
138
+ 1.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 1.0
151
+ ],
152
+ [
153
+ 37,
154
+ 1.0
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.85
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 1.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 1.0
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 1.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 1.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 1.0
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 1.0
251
+ ],
252
+ [
253
+ 62,
254
+ 1.0
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 1.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.15000000000000002
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 1.0
275
+ ],
276
+ [
277
+ 68,
278
+ 1.0
279
+ ],
280
+ [
281
+ 69,
282
+ 1.0
283
+ ],
284
+ [
285
+ 70,
286
+ 1.0
287
+ ],
288
+ [
289
+ 71,
290
+ 1.0
291
+ ],
292
+ [
293
+ 72,
294
+ 1.0
295
+ ],
296
+ [
297
+ 73,
298
+ 1.0
299
+ ],
300
+ [
301
+ 74,
302
+ 1.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 1.0
311
+ ],
312
+ [
313
+ 77,
314
+ 1.0
315
+ ],
316
+ [
317
+ 78,
318
+ 1.0
319
+ ],
320
+ [
321
+ 79,
322
+ 0.0
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 1.0
331
+ ],
332
+ [
333
+ 82,
334
+ 1.0
335
+ ],
336
+ [
337
+ 83,
338
+ 1.0
339
+ ],
340
+ [
341
+ 84,
342
+ 1.0
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 1.0
351
+ ],
352
+ [
353
+ 87,
354
+ 1.0
355
+ ],
356
+ [
357
+ 88,
358
+ 1.0
359
+ ],
360
+ [
361
+ 89,
362
+ 1.0
363
+ ],
364
+ [
365
+ 90,
366
+ 1.0
367
+ ],
368
+ [
369
+ 91,
370
+ 0.5499999999999998
371
+ ],
372
+ [
373
+ 92,
374
+ 1.0
375
+ ],
376
+ [
377
+ 93,
378
+ 0.09999999999999998
379
+ ],
380
+ [
381
+ 94,
382
+ 1.0
383
+ ],
384
+ [
385
+ 95,
386
+ 0.5499999999999998
387
+ ],
388
+ [
389
+ 96,
390
+ 1.0
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 1.0
399
+ ],
400
+ [
401
+ 99,
402
+ 1.0
403
+ ],
404
+ [
405
+ 100,
406
+ 1.0
407
+ ],
408
+ [
409
+ 101,
410
+ 1.0
411
+ ],
412
+ [
413
+ 102,
414
+ 1.0
415
+ ],
416
+ [
417
+ 103,
418
+ 1.0
419
+ ],
420
+ [
421
+ 104,
422
+ 1.0
423
+ ],
424
+ [
425
+ 105,
426
+ 1.0
427
+ ],
428
+ [
429
+ 106,
430
+ 1.0
431
+ ],
432
+ [
433
+ 107,
434
+ 1.0
435
+ ],
436
+ [
437
+ 108,
438
+ 0.8999999999999999
439
+ ],
440
+ [
441
+ 109,
442
+ 0.95
443
+ ],
444
+ [
445
+ 110,
446
+ 1.0
447
+ ],
448
+ [
449
+ 111,
450
+ 1.0
451
+ ],
452
+ [
453
+ 112,
454
+ 1.0
455
+ ],
456
+ [
457
+ 113,
458
+ 1.0
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 0.95
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 1.0
475
+ ],
476
+ [
477
+ 118,
478
+ 1.0
479
+ ],
480
+ [
481
+ 119,
482
+ 1.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.050000000000000044
491
+ ],
492
+ [
493
+ 122,
494
+ 0.0
495
+ ],
496
+ [
497
+ 123,
498
+ 1.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.95
503
+ ],
504
+ [
505
+ 125,
506
+ 0.75
507
+ ],
508
+ [
509
+ 126,
510
+ 0.15000000000000002
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 1.0
519
+ ],
520
+ [
521
+ 129,
522
+ 0.20000000000000007
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 1.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.8999999999999999
543
+ ],
544
+ [
545
+ 135,
546
+ 0.85
547
+ ],
548
+ [
549
+ 136,
550
+ 1.0
551
+ ],
552
+ [
553
+ 137,
554
+ 1.0
555
+ ],
556
+ [
557
+ 138,
558
+ 1.0
559
+ ],
560
+ [
561
+ 139,
562
+ 1.0
563
+ ],
564
+ [
565
+ 140,
566
+ 1.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.8999999999999999
571
+ ],
572
+ [
573
+ 142,
574
+ 1.0
575
+ ],
576
+ [
577
+ 143,
578
+ 1.0
579
+ ],
580
+ [
581
+ 144,
582
+ 1.0
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 1.0
591
+ ],
592
+ [
593
+ 147,
594
+ 1.0
595
+ ],
596
+ [
597
+ 148,
598
+ 1.0
599
+ ],
600
+ [
601
+ 149,
602
+ 1.0
603
+ ],
604
+ [
605
+ 150,
606
+ 1.0
607
+ ],
608
+ [
609
+ 151,
610
+ 1.0
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 1.0
619
+ ],
620
+ [
621
+ 154,
622
+ 0.09999999999999998
623
+ ],
624
+ [
625
+ 155,
626
+ 0.65
627
+ ],
628
+ [
629
+ 156,
630
+ 1.0
631
+ ],
632
+ [
633
+ 157,
634
+ 1.0
635
+ ],
636
+ [
637
+ 158,
638
+ 1.0
639
+ ],
640
+ [
641
+ 159,
642
+ 1.0
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 1.0
651
+ ],
652
+ [
653
+ 162,
654
+ 1.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 1.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 1.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 0.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 1.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.9999945874558878
741
+ ],
742
+ [
743
+ 20,
744
+ 1.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.9984520123839009
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 1.0
793
+ ],
794
+ [
795
+ 33,
796
+ 1.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 1.0
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 1.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 1.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 1.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 1.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.8947368421052632
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 1.0
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 1.0
941
+ ],
942
+ [
943
+ 70,
944
+ 1.0
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 1.0
957
+ ],
958
+ [
959
+ 74,
960
+ 1.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 1.0
973
+ ],
974
+ [
975
+ 78,
976
+ 1.0
977
+ ],
978
+ [
979
+ 79,
980
+ 0.0
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 1.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 1.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 1.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 1.0
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 1.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.763157894736842
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 1.0
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 1.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 1.0
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 1.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 1.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 1.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 1.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 1.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 1.0
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 1.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 1.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 1.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 1.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 1.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 1.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 1.0
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 1.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 1.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 1.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 0.5
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 0.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 1.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 1.0
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 1.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.8947368421052632
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 1.0
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.956656346749226
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 1.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 1.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 1.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 1.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 1.0
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 1.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 1.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 1.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 1.0
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 1.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 1.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 1.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 1.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 1.0
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 1.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.763157894736842
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 1.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 1.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 1.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 1.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "Nxcode-CQ-7B-orpo",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "11_Nxcode-CQ-7B-orpo.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "11_Nxcode-CQ-7B-orpo_result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/1_codegemma-2b-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 0.85
7
+ ],
8
+ [
9
+ 1,
10
+ 0.0
11
+ ],
12
+ [
13
+ 2,
14
+ 0.3500000000000001
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 0.75
23
+ ],
24
+ [
25
+ 5,
26
+ 0.25
27
+ ],
28
+ [
29
+ 6,
30
+ 0.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 0.95
39
+ ],
40
+ [
41
+ 9,
42
+ 0.09999999999999998
43
+ ],
44
+ [
45
+ 10,
46
+ 0.4
47
+ ],
48
+ [
49
+ 11,
50
+ 0.95
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 0.95
59
+ ],
60
+ [
61
+ 14,
62
+ 0.5499999999999998
63
+ ],
64
+ [
65
+ 15,
66
+ 0.15000000000000002
67
+ ],
68
+ [
69
+ 16,
70
+ 0.09999999999999998
71
+ ],
72
+ [
73
+ 17,
74
+ 0.0
75
+ ],
76
+ [
77
+ 18,
78
+ 0.4
79
+ ],
80
+ [
81
+ 19,
82
+ 0.0
83
+ ],
84
+ [
85
+ 20,
86
+ 0.0
87
+ ],
88
+ [
89
+ 21,
90
+ 0.7999999999999999
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.0
103
+ ],
104
+ [
105
+ 25,
106
+ 0.30000000000000004
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 0.75
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 0.95
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.0
151
+ ],
152
+ [
153
+ 37,
154
+ 0.09999999999999998
155
+ ],
156
+ [
157
+ 38,
158
+ 0.95
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 0.95
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 0.7999999999999999
179
+ ],
180
+ [
181
+ 44,
182
+ 0.8999999999999999
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.95
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 0.30000000000000004
199
+ ],
200
+ [
201
+ 49,
202
+ 0.09999999999999998
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 0.4999999999999999
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 0.85
227
+ ],
228
+ [
229
+ 56,
230
+ 0.4
231
+ ],
232
+ [
233
+ 57,
234
+ 0.09999999999999998
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.6000000000000001
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.7
251
+ ],
252
+ [
253
+ 62,
254
+ 0.0
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.09999999999999998
267
+ ],
268
+ [
269
+ 66,
270
+ 0.85
271
+ ],
272
+ [
273
+ 67,
274
+ 0.0
275
+ ],
276
+ [
277
+ 68,
278
+ 0.050000000000000044
279
+ ],
280
+ [
281
+ 69,
282
+ 0.050000000000000044
283
+ ],
284
+ [
285
+ 70,
286
+ 0.0
287
+ ],
288
+ [
289
+ 71,
290
+ 0.25
291
+ ],
292
+ [
293
+ 72,
294
+ 0.0
295
+ ],
296
+ [
297
+ 73,
298
+ 0.0
299
+ ],
300
+ [
301
+ 74,
302
+ 0.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.0
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 0.0
319
+ ],
320
+ [
321
+ 79,
322
+ 0.0
323
+ ],
324
+ [
325
+ 80,
326
+ 0.050000000000000044
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.050000000000000044
343
+ ],
344
+ [
345
+ 85,
346
+ 0.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.09999999999999998
351
+ ],
352
+ [
353
+ 87,
354
+ 0.0
355
+ ],
356
+ [
357
+ 88,
358
+ 0.0
359
+ ],
360
+ [
361
+ 89,
362
+ 0.0
363
+ ],
364
+ [
365
+ 90,
366
+ 0.15000000000000002
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.30000000000000004
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 0.050000000000000044
383
+ ],
384
+ [
385
+ 95,
386
+ 0.0
387
+ ],
388
+ [
389
+ 96,
390
+ 0.09999999999999998
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.09999999999999998
399
+ ],
400
+ [
401
+ 99,
402
+ 0.050000000000000044
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 0.0
411
+ ],
412
+ [
413
+ 102,
414
+ 0.0
415
+ ],
416
+ [
417
+ 103,
418
+ 0.050000000000000044
419
+ ],
420
+ [
421
+ 104,
422
+ 0.0
423
+ ],
424
+ [
425
+ 105,
426
+ 0.0
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.3500000000000001
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.0
451
+ ],
452
+ [
453
+ 112,
454
+ 0.050000000000000044
455
+ ],
456
+ [
457
+ 113,
458
+ 0.0
459
+ ],
460
+ [
461
+ 114,
462
+ 0.85
463
+ ],
464
+ [
465
+ 115,
466
+ 0.0
467
+ ],
468
+ [
469
+ 116,
470
+ 0.8999999999999999
471
+ ],
472
+ [
473
+ 117,
474
+ 0.050000000000000044
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.4999999999999999
491
+ ],
492
+ [
493
+ 122,
494
+ 0.30000000000000004
495
+ ],
496
+ [
497
+ 123,
498
+ 0.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.09999999999999998
503
+ ],
504
+ [
505
+ 125,
506
+ 0.0
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 0.0
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.0
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.050000000000000044
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 0.65
575
+ ],
576
+ [
577
+ 143,
578
+ 0.0
579
+ ],
580
+ [
581
+ 144,
582
+ 0.0
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.0
595
+ ],
596
+ [
597
+ 148,
598
+ 0.0
599
+ ],
600
+ [
601
+ 149,
602
+ 0.0
603
+ ],
604
+ [
605
+ 150,
606
+ 0.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.09999999999999998
611
+ ],
612
+ [
613
+ 152,
614
+ 0.09999999999999998
615
+ ],
616
+ [
617
+ 153,
618
+ 0.0
619
+ ],
620
+ [
621
+ 154,
622
+ 0.050000000000000044
623
+ ],
624
+ [
625
+ 155,
626
+ 0.0
627
+ ],
628
+ [
629
+ 156,
630
+ 0.050000000000000044
631
+ ],
632
+ [
633
+ 157,
634
+ 0.09999999999999998
635
+ ],
636
+ [
637
+ 158,
638
+ 0.15000000000000002
639
+ ],
640
+ [
641
+ 159,
642
+ 0.09999999999999998
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.0
651
+ ],
652
+ [
653
+ 162,
654
+ 0.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.0
669
+ ],
670
+ [
671
+ 2,
672
+ 0.9984520123839009
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 0.9837461300309598
685
+ ],
686
+ [
687
+ 6,
688
+ 0.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 0.763157894736842
701
+ ],
702
+ [
703
+ 10,
704
+ 0.9996427720885925
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 0.8947368421052632
725
+ ],
726
+ [
727
+ 16,
728
+ 0.763157894736842
729
+ ],
730
+ [
731
+ 17,
732
+ 0.0
733
+ ],
734
+ [
735
+ 18,
736
+ 0.9996427720885925
737
+ ],
738
+ [
739
+ 19,
740
+ 0.0
741
+ ],
742
+ [
743
+ 20,
744
+ 0.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 0.0
761
+ ],
762
+ [
763
+ 25,
764
+ 0.9945820433436533
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 0.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.763157894736842
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 0.9945820433436533
857
+ ],
858
+ [
859
+ 49,
860
+ 0.763157894736842
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 0.9999945874558878
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 0.9996427720885925
889
+ ],
890
+ [
891
+ 57,
892
+ 0.763157894736842
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 0.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.763157894736842
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.0
933
+ ],
934
+ [
935
+ 68,
936
+ 0.5
937
+ ],
938
+ [
939
+ 69,
940
+ 0.5
941
+ ],
942
+ [
943
+ 70,
944
+ 0.0
945
+ ],
946
+ [
947
+ 71,
948
+ 0.9837461300309598
949
+ ],
950
+ [
951
+ 72,
952
+ 0.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.0
957
+ ],
958
+ [
959
+ 74,
960
+ 0.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 0.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.0
973
+ ],
974
+ [
975
+ 78,
976
+ 0.0
977
+ ],
978
+ [
979
+ 79,
980
+ 0.0
981
+ ],
982
+ [
983
+ 80,
984
+ 0.5
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 0.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.5
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 0.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 0.763157894736842
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 0.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 0.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 0.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.8947368421052632
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 0.9945820433436533
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.5
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.763157894736842
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 0.763157894736842
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.5
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 0.5
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.0
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 0.9984520123839009
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 0.5
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.0
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.5
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 0.9999945874558878
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 0.9945820433436533
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.763157894736842
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.0
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 0.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.5
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.0
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 0.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 0.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.763157894736842
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 0.763157894736842
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.5
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.5
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 0.763157894736842
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 0.8947368421052632
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.763157894736842
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 0.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "codegemma-2b",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "2_codegemma-2b_generations_humaneval_codegemma-2b_humaneval.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "2codegemma-2b-result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/2_codegemma-7b-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.0
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.4999999999999999
27
+ ],
28
+ [
29
+ 6,
30
+ 0.050000000000000044
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.5499999999999998
43
+ ],
44
+ [
45
+ 10,
46
+ 0.0
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 0.4999999999999999
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 0.5499999999999998
71
+ ],
72
+ [
73
+ 17,
74
+ 0.30000000000000004
75
+ ],
76
+ [
77
+ 18,
78
+ 0.09999999999999998
79
+ ],
80
+ [
81
+ 19,
82
+ 0.0
83
+ ],
84
+ [
85
+ 20,
86
+ 0.09999999999999998
87
+ ],
88
+ [
89
+ 21,
90
+ 0.3500000000000001
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.65
103
+ ],
104
+ [
105
+ 25,
106
+ 0.4
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 0.85
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 0.95
127
+ ],
128
+ [
129
+ 31,
130
+ 0.95
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.15000000000000002
151
+ ],
152
+ [
153
+ 37,
154
+ 0.0
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 0.95
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 0.8999999999999999
179
+ ],
180
+ [
181
+ 44,
182
+ 0.75
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.7
191
+ ],
192
+ [
193
+ 47,
194
+ 0.75
195
+ ],
196
+ [
197
+ 48,
198
+ 0.8999999999999999
199
+ ],
200
+ [
201
+ 49,
202
+ 0.8999999999999999
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 0.5499999999999998
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 0.75
227
+ ],
228
+ [
229
+ 56,
230
+ 0.44999999999999984
231
+ ],
232
+ [
233
+ 57,
234
+ 0.5499999999999998
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.15000000000000002
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.6000000000000001
251
+ ],
252
+ [
253
+ 62,
254
+ 0.65
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.25
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.0
275
+ ],
276
+ [
277
+ 68,
278
+ 0.6000000000000001
279
+ ],
280
+ [
281
+ 69,
282
+ 0.09999999999999998
283
+ ],
284
+ [
285
+ 70,
286
+ 0.20000000000000007
287
+ ],
288
+ [
289
+ 71,
290
+ 0.7999999999999999
291
+ ],
292
+ [
293
+ 72,
294
+ 1.0
295
+ ],
296
+ [
297
+ 73,
298
+ 0.20000000000000007
299
+ ],
300
+ [
301
+ 74,
302
+ 0.44999999999999984
303
+ ],
304
+ [
305
+ 75,
306
+ 0.09999999999999998
307
+ ],
308
+ [
309
+ 76,
310
+ 0.7
311
+ ],
312
+ [
313
+ 77,
314
+ 0.050000000000000044
315
+ ],
316
+ [
317
+ 78,
318
+ 0.4999999999999999
319
+ ],
320
+ [
321
+ 79,
322
+ 0.5499999999999998
323
+ ],
324
+ [
325
+ 80,
326
+ 0.44999999999999984
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.050000000000000044
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.0
343
+ ],
344
+ [
345
+ 85,
346
+ 0.25
347
+ ],
348
+ [
349
+ 86,
350
+ 0.15000000000000002
351
+ ],
352
+ [
353
+ 87,
354
+ 0.3500000000000001
355
+ ],
356
+ [
357
+ 88,
358
+ 0.20000000000000007
359
+ ],
360
+ [
361
+ 89,
362
+ 0.25
363
+ ],
364
+ [
365
+ 90,
366
+ 0.30000000000000004
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.6000000000000001
375
+ ],
376
+ [
377
+ 93,
378
+ 0.050000000000000044
379
+ ],
380
+ [
381
+ 94,
382
+ 0.0
383
+ ],
384
+ [
385
+ 95,
386
+ 0.4
387
+ ],
388
+ [
389
+ 96,
390
+ 0.4
391
+ ],
392
+ [
393
+ 97,
394
+ 0.75
395
+ ],
396
+ [
397
+ 98,
398
+ 0.7
399
+ ],
400
+ [
401
+ 99,
402
+ 0.0
403
+ ],
404
+ [
405
+ 100,
406
+ 0.050000000000000044
407
+ ],
408
+ [
409
+ 101,
410
+ 0.30000000000000004
411
+ ],
412
+ [
413
+ 102,
414
+ 0.15000000000000002
415
+ ],
416
+ [
417
+ 103,
418
+ 0.65
419
+ ],
420
+ [
421
+ 104,
422
+ 0.20000000000000007
423
+ ],
424
+ [
425
+ 105,
426
+ 0.050000000000000044
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.6000000000000001
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.050000000000000044
447
+ ],
448
+ [
449
+ 111,
450
+ 0.15000000000000002
451
+ ],
452
+ [
453
+ 112,
454
+ 0.25
455
+ ],
456
+ [
457
+ 113,
458
+ 0.44999999999999984
459
+ ],
460
+ [
461
+ 114,
462
+ 0.4999999999999999
463
+ ],
464
+ [
465
+ 115,
466
+ 0.09999999999999998
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.25
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.15000000000000002
487
+ ],
488
+ [
489
+ 121,
490
+ 0.4
491
+ ],
492
+ [
493
+ 122,
494
+ 0.75
495
+ ],
496
+ [
497
+ 123,
498
+ 0.15000000000000002
499
+ ],
500
+ [
501
+ 124,
502
+ 0.20000000000000007
503
+ ],
504
+ [
505
+ 125,
506
+ 0.09999999999999998
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.050000000000000044
515
+ ],
516
+ [
517
+ 128,
518
+ 0.20000000000000007
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.75
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.09999999999999998
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 0.20000000000000007
575
+ ],
576
+ [
577
+ 143,
578
+ 0.15000000000000002
579
+ ],
580
+ [
581
+ 144,
582
+ 0.3500000000000001
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.3500000000000001
595
+ ],
596
+ [
597
+ 148,
598
+ 0.30000000000000004
599
+ ],
600
+ [
601
+ 149,
602
+ 0.25
603
+ ],
604
+ [
605
+ 150,
606
+ 0.050000000000000044
607
+ ],
608
+ [
609
+ 151,
610
+ 0.3500000000000001
611
+ ],
612
+ [
613
+ 152,
614
+ 0.75
615
+ ],
616
+ [
617
+ 153,
618
+ 0.15000000000000002
619
+ ],
620
+ [
621
+ 154,
622
+ 0.20000000000000007
623
+ ],
624
+ [
625
+ 155,
626
+ 0.0
627
+ ],
628
+ [
629
+ 156,
630
+ 0.30000000000000004
631
+ ],
632
+ [
633
+ 157,
634
+ 0.3500000000000001
635
+ ],
636
+ [
637
+ 158,
638
+ 0.25
639
+ ],
640
+ [
641
+ 159,
642
+ 0.09999999999999998
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.09999999999999998
651
+ ],
652
+ [
653
+ 162,
654
+ 0.5499999999999998
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 0.9999945874558878
685
+ ],
686
+ [
687
+ 6,
688
+ 0.5
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 0.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 0.9999945874558878
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 0.9945820433436533
733
+ ],
734
+ [
735
+ 18,
736
+ 0.763157894736842
737
+ ],
738
+ [
739
+ 19,
740
+ 0.0
741
+ ],
742
+ [
743
+ 20,
744
+ 0.763157894736842
745
+ ],
746
+ [
747
+ 21,
748
+ 0.9984520123839009
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 0.9996427720885925
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 0.8947368421052632
809
+ ],
810
+ [
811
+ 37,
812
+ 0.0
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 0.9999404620147654
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 0.8947368421052632
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.9837461300309598
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.0
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 0.763157894736842
941
+ ],
942
+ [
943
+ 70,
944
+ 0.956656346749226
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.956656346749226
957
+ ],
958
+ [
959
+ 74,
960
+ 0.9999404620147654
961
+ ],
962
+ [
963
+ 75,
964
+ 0.763157894736842
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.5
973
+ ],
974
+ [
975
+ 78,
976
+ 0.9999945874558878
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 0.9999404620147654
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 0.5
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 0.9837461300309598
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 0.8947368421052632
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 0.9984520123839009
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 0.956656346749226
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 0.9837461300309598
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.9945820433436533
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.5
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.0
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.9996427720885925
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.9996427720885925
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.5
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.9945820433436533
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.8947368421052632
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.956656346749226
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.5
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.5
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.8947368421052632
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 0.9837461300309598
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.9999404620147654
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 0.9999945874558878
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.763157894736842
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.9837461300309598
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.8947368421052632
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 0.9996427720885925
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.8947368421052632
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.956656346749226
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.763157894736842
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.5
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.956656346749226
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.763157894736842
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 0.956656346749226
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.8947368421052632
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.9984520123839009
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 0.9984520123839009
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 0.9945820433436533
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.9837461300309598
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.5
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.9984520123839009
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.8947368421052632
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.956656346749226
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.9945820433436533
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 0.9984520123839009
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 0.9837461300309598
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.763157894736842
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.763157894736842
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "codegemma-7b",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "3_codegemma-7b_generations_humaneval_codegemma-7b_humaneval.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "3_codegemma-7b-result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/3_codegemma-7b-it-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.0
11
+ ],
12
+ [
13
+ 2,
14
+ 0.95
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.8999999999999999
27
+ ],
28
+ [
29
+ 6,
30
+ 0.20000000000000007
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.4999999999999999
43
+ ],
44
+ [
45
+ 10,
46
+ 0.050000000000000044
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 0.8999999999999999
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 0.7999999999999999
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.7
75
+ ],
76
+ [
77
+ 18,
78
+ 0.7
79
+ ],
80
+ [
81
+ 19,
82
+ 0.3500000000000001
83
+ ],
84
+ [
85
+ 20,
86
+ 0.4
87
+ ],
88
+ [
89
+ 21,
90
+ 0.85
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.8999999999999999
103
+ ],
104
+ [
105
+ 25,
106
+ 0.85
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.050000000000000044
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.5499999999999998
151
+ ],
152
+ [
153
+ 37,
154
+ 0.25
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 0.050000000000000044
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.4999999999999999
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 0.6000000000000001
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 0.8999999999999999
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 0.85
227
+ ],
228
+ [
229
+ 56,
230
+ 0.95
231
+ ],
232
+ [
233
+ 57,
234
+ 0.4
235
+ ],
236
+ [
237
+ 58,
238
+ 0.7999999999999999
239
+ ],
240
+ [
241
+ 59,
242
+ 0.44999999999999984
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.95
251
+ ],
252
+ [
253
+ 62,
254
+ 0.7
255
+ ],
256
+ [
257
+ 63,
258
+ 0.4
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.4
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.25
275
+ ],
276
+ [
277
+ 68,
278
+ 0.7999999999999999
279
+ ],
280
+ [
281
+ 69,
282
+ 0.7
283
+ ],
284
+ [
285
+ 70,
286
+ 0.25
287
+ ],
288
+ [
289
+ 71,
290
+ 0.85
291
+ ],
292
+ [
293
+ 72,
294
+ 0.5499999999999998
295
+ ],
296
+ [
297
+ 73,
298
+ 0.09999999999999998
299
+ ],
300
+ [
301
+ 74,
302
+ 1.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.15000000000000002
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 0.4999999999999999
319
+ ],
320
+ [
321
+ 79,
322
+ 0.050000000000000044
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.5499999999999998
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.050000000000000044
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.7999999999999999
351
+ ],
352
+ [
353
+ 87,
354
+ 0.5499999999999998
355
+ ],
356
+ [
357
+ 88,
358
+ 0.20000000000000007
359
+ ],
360
+ [
361
+ 89,
362
+ 0.8999999999999999
363
+ ],
364
+ [
365
+ 90,
366
+ 0.09999999999999998
367
+ ],
368
+ [
369
+ 91,
370
+ 0.15000000000000002
371
+ ],
372
+ [
373
+ 92,
374
+ 0.7999999999999999
375
+ ],
376
+ [
377
+ 93,
378
+ 0.050000000000000044
379
+ ],
380
+ [
381
+ 94,
382
+ 0.30000000000000004
383
+ ],
384
+ [
385
+ 95,
386
+ 0.050000000000000044
387
+ ],
388
+ [
389
+ 96,
390
+ 0.8999999999999999
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.8999999999999999
399
+ ],
400
+ [
401
+ 99,
402
+ 0.3500000000000001
403
+ ],
404
+ [
405
+ 100,
406
+ 0.15000000000000002
407
+ ],
408
+ [
409
+ 101,
410
+ 0.09999999999999998
411
+ ],
412
+ [
413
+ 102,
414
+ 0.7
415
+ ],
416
+ [
417
+ 103,
418
+ 0.5499999999999998
419
+ ],
420
+ [
421
+ 104,
422
+ 0.3500000000000001
423
+ ],
424
+ [
425
+ 105,
426
+ 0.20000000000000007
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.8999999999999999
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.15000000000000002
443
+ ],
444
+ [
445
+ 110,
446
+ 0.15000000000000002
447
+ ],
448
+ [
449
+ 111,
450
+ 0.6000000000000001
451
+ ],
452
+ [
453
+ 112,
454
+ 0.7999999999999999
455
+ ],
456
+ [
457
+ 113,
458
+ 0.7
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 0.050000000000000044
467
+ ],
468
+ [
469
+ 116,
470
+ 0.15000000000000002
471
+ ],
472
+ [
473
+ 117,
474
+ 0.65
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.09999999999999998
483
+ ],
484
+ [
485
+ 120,
486
+ 0.09999999999999998
487
+ ],
488
+ [
489
+ 121,
490
+ 0.5499999999999998
491
+ ],
492
+ [
493
+ 122,
494
+ 0.85
495
+ ],
496
+ [
497
+ 123,
498
+ 0.4999999999999999
499
+ ],
500
+ [
501
+ 124,
502
+ 0.050000000000000044
503
+ ],
504
+ [
505
+ 125,
506
+ 0.050000000000000044
507
+ ],
508
+ [
509
+ 126,
510
+ 0.050000000000000044
511
+ ],
512
+ [
513
+ 127,
514
+ 0.050000000000000044
515
+ ],
516
+ [
517
+ 128,
518
+ 0.4999999999999999
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.8999999999999999
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.0
559
+ ],
560
+ [
561
+ 139,
562
+ 0.09999999999999998
563
+ ],
564
+ [
565
+ 140,
566
+ 0.050000000000000044
567
+ ],
568
+ [
569
+ 141,
570
+ 0.65
571
+ ],
572
+ [
573
+ 142,
574
+ 0.25
575
+ ],
576
+ [
577
+ 143,
578
+ 0.15000000000000002
579
+ ],
580
+ [
581
+ 144,
582
+ 0.44999999999999984
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.20000000000000007
591
+ ],
592
+ [
593
+ 147,
594
+ 0.8999999999999999
595
+ ],
596
+ [
597
+ 148,
598
+ 0.7
599
+ ],
600
+ [
601
+ 149,
602
+ 0.5499999999999998
603
+ ],
604
+ [
605
+ 150,
606
+ 0.3500000000000001
607
+ ],
608
+ [
609
+ 151,
610
+ 1.0
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.75
619
+ ],
620
+ [
621
+ 154,
622
+ 0.5499999999999998
623
+ ],
624
+ [
625
+ 155,
626
+ 0.25
627
+ ],
628
+ [
629
+ 156,
630
+ 0.44999999999999984
631
+ ],
632
+ [
633
+ 157,
634
+ 1.0
635
+ ],
636
+ [
637
+ 158,
638
+ 0.8999999999999999
639
+ ],
640
+ [
641
+ 159,
642
+ 0.8999999999999999
643
+ ],
644
+ [
645
+ 160,
646
+ 0.15000000000000002
647
+ ],
648
+ [
649
+ 161,
650
+ 0.25
651
+ ],
652
+ [
653
+ 162,
654
+ 1.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 0.956656346749226
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 0.9999945874558878
701
+ ],
702
+ [
703
+ 10,
704
+ 0.5
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 1.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.9984520123839009
741
+ ],
742
+ [
743
+ 20,
744
+ 0.9996427720885925
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.5
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.9837461300309598
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.5
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 0.9999945874558878
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 0.9996427720885925
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 0.9999404620147654
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 0.9996427720885925
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.9996427720885925
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.9837461300309598
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 1.0
941
+ ],
942
+ [
943
+ 70,
944
+ 0.9837461300309598
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.763157894736842
957
+ ],
958
+ [
959
+ 74,
960
+ 1.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 0.8947368421052632
969
+ ],
970
+ [
971
+ 77,
972
+ 0.0
973
+ ],
974
+ [
975
+ 78,
976
+ 0.9999945874558878
977
+ ],
978
+ [
979
+ 79,
980
+ 0.5
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.5
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 0.956656346749226
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.763157894736842
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.8947368421052632
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.5
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.9945820433436533
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.5
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 1.0
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.9984520123839009
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.8947368421052632
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.763157894736842
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 1.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.9984520123839009
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.956656346749226
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.8947368421052632
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.8947368421052632
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 1.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 1.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.5
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 0.8947368421052632
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 1.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.763157894736842
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.763157894736842
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.9999945874558878
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.5
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.5
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.5
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.5
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.9999945874558878
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.0
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.763157894736842
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.5
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 1.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 0.9837461300309598
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.8947368421052632
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.9999404620147654
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.956656346749226
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 1.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.9984520123839009
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 1.0
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 1.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 1.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.9837461300309598
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.9999404620147654
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 1.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.8947368421052632
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.9837461300309598
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "codegemma-7b-it",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "1_codegemma-7b-it_generations_humaneval_codegemma-7b-it_humaneval.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "1_codegemma-7b-it-result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/4_deepseek-coder-1.3b-base-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 0.8999999999999999
7
+ ],
8
+ [
9
+ 1,
10
+ 0.0
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 0.85
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.0
27
+ ],
28
+ [
29
+ 6,
30
+ 0.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 0.95
39
+ ],
40
+ [
41
+ 9,
42
+ 0.0
43
+ ],
44
+ [
45
+ 10,
46
+ 0.0
47
+ ],
48
+ [
49
+ 11,
50
+ 0.85
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 0.95
59
+ ],
60
+ [
61
+ 14,
62
+ 0.25
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.0
75
+ ],
76
+ [
77
+ 18,
78
+ 0.050000000000000044
79
+ ],
80
+ [
81
+ 19,
82
+ 0.0
83
+ ],
84
+ [
85
+ 20,
86
+ 0.050000000000000044
87
+ ],
88
+ [
89
+ 21,
90
+ 0.7999999999999999
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.0
103
+ ],
104
+ [
105
+ 25,
106
+ 0.7999999999999999
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.0
151
+ ],
152
+ [
153
+ 37,
154
+ 0.4
155
+ ],
156
+ [
157
+ 38,
158
+ 0.15000000000000002
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 0.8999999999999999
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 0.25
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.7
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 0.75
211
+ ],
212
+ [
213
+ 52,
214
+ 0.09999999999999998
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.44999999999999984
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 0.7999999999999999
231
+ ],
232
+ [
233
+ 57,
234
+ 0.6000000000000001
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.65
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.75
251
+ ],
252
+ [
253
+ 62,
254
+ 0.25
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.0
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.0
275
+ ],
276
+ [
277
+ 68,
278
+ 0.8999999999999999
279
+ ],
280
+ [
281
+ 69,
282
+ 0.050000000000000044
283
+ ],
284
+ [
285
+ 70,
286
+ 0.0
287
+ ],
288
+ [
289
+ 71,
290
+ 0.20000000000000007
291
+ ],
292
+ [
293
+ 72,
294
+ 0.75
295
+ ],
296
+ [
297
+ 73,
298
+ 0.0
299
+ ],
300
+ [
301
+ 74,
302
+ 0.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.0
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 0.0
319
+ ],
320
+ [
321
+ 79,
322
+ 0.6000000000000001
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.4999999999999999
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.0
343
+ ],
344
+ [
345
+ 85,
346
+ 0.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.0
351
+ ],
352
+ [
353
+ 87,
354
+ 0.0
355
+ ],
356
+ [
357
+ 88,
358
+ 0.0
359
+ ],
360
+ [
361
+ 89,
362
+ 0.0
363
+ ],
364
+ [
365
+ 90,
366
+ 0.0
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.3500000000000001
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 0.4999999999999999
383
+ ],
384
+ [
385
+ 95,
386
+ 0.0
387
+ ],
388
+ [
389
+ 96,
390
+ 0.15000000000000002
391
+ ],
392
+ [
393
+ 97,
394
+ 0.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.0
399
+ ],
400
+ [
401
+ 99,
402
+ 0.0
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 0.0
411
+ ],
412
+ [
413
+ 102,
414
+ 0.0
415
+ ],
416
+ [
417
+ 103,
418
+ 0.0
419
+ ],
420
+ [
421
+ 104,
422
+ 0.0
423
+ ],
424
+ [
425
+ 105,
426
+ 0.0
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.25
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.0
451
+ ],
452
+ [
453
+ 112,
454
+ 0.5499999999999998
455
+ ],
456
+ [
457
+ 113,
458
+ 0.0
459
+ ],
460
+ [
461
+ 114,
462
+ 0.6000000000000001
463
+ ],
464
+ [
465
+ 115,
466
+ 0.0
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.0
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.85
491
+ ],
492
+ [
493
+ 122,
494
+ 0.0
495
+ ],
496
+ [
497
+ 123,
498
+ 0.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.0
503
+ ],
504
+ [
505
+ 125,
506
+ 0.0
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 0.0
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.050000000000000044
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.050000000000000044
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 0.0
575
+ ],
576
+ [
577
+ 143,
578
+ 0.20000000000000007
579
+ ],
580
+ [
581
+ 144,
582
+ 0.0
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.0
595
+ ],
596
+ [
597
+ 148,
598
+ 0.0
599
+ ],
600
+ [
601
+ 149,
602
+ 0.0
603
+ ],
604
+ [
605
+ 150,
606
+ 0.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.30000000000000004
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.0
619
+ ],
620
+ [
621
+ 154,
622
+ 0.0
623
+ ],
624
+ [
625
+ 155,
626
+ 0.0
627
+ ],
628
+ [
629
+ 156,
630
+ 0.5499999999999998
631
+ ],
632
+ [
633
+ 157,
634
+ 0.7999999999999999
635
+ ],
636
+ [
637
+ 158,
638
+ 0.0
639
+ ],
640
+ [
641
+ 159,
642
+ 0.44999999999999984
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.0
651
+ ],
652
+ [
653
+ 162,
654
+ 0.15000000000000002
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 0.0
685
+ ],
686
+ [
687
+ 6,
688
+ 0.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 0.0
701
+ ],
702
+ [
703
+ 10,
704
+ 0.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 0.9837461300309598
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 0.0
733
+ ],
734
+ [
735
+ 18,
736
+ 0.5
737
+ ],
738
+ [
739
+ 19,
740
+ 0.0
741
+ ],
742
+ [
743
+ 20,
744
+ 0.5
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 0.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 0.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.9996427720885925
813
+ ],
814
+ [
815
+ 38,
816
+ 0.8947368421052632
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 0.9837461300309598
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 0.763157894736842
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.9999404620147654
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 0.9837461300309598
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.0
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.0
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 0.5
941
+ ],
942
+ [
943
+ 70,
944
+ 0.0
945
+ ],
946
+ [
947
+ 71,
948
+ 0.956656346749226
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.0
957
+ ],
958
+ [
959
+ 74,
960
+ 0.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 0.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.0
973
+ ],
974
+ [
975
+ 78,
976
+ 0.0
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 0.9999945874558878
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 0.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 0.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 0.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 0.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 0.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.0
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 0.9984520123839009
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.9999945874558878
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.8947368421052632
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 0.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 0.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 0.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.0
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 0.9837461300309598
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.0
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 0.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.0
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.0
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 0.5
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.5
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 0.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.956656346749226
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 0.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 0.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.9945820433436533
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 1.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 0.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.9999404620147654
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 0.8947368421052632
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "deepseek-coder-1.3b-base",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "4_deepseek-coder-1.3b-base_generations_humaneval_deepseek-coder-1.3b-base.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "4_deepseek-coder-1.3b-base-result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/5_deepseek-coder-6.7b-base-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.15000000000000002
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.25
27
+ ],
28
+ [
29
+ 6,
30
+ 0.25
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 0.85
39
+ ],
40
+ [
41
+ 9,
42
+ 0.5499999999999998
43
+ ],
44
+ [
45
+ 10,
46
+ 0.3500000000000001
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.09999999999999998
75
+ ],
76
+ [
77
+ 18,
78
+ 0.4999999999999999
79
+ ],
80
+ [
81
+ 19,
82
+ 0.95
83
+ ],
84
+ [
85
+ 20,
86
+ 0.75
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 1.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.75
151
+ ],
152
+ [
153
+ 37,
154
+ 0.050000000000000044
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.6000000000000001
163
+ ],
164
+ [
165
+ 40,
166
+ 0.95
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 0.7999999999999999
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.85
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 0.8999999999999999
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 0.85
231
+ ],
232
+ [
233
+ 57,
234
+ 1.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.85
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.7999999999999999
251
+ ],
252
+ [
253
+ 62,
254
+ 0.85
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.5499999999999998
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.050000000000000044
275
+ ],
276
+ [
277
+ 68,
278
+ 0.3500000000000001
279
+ ],
280
+ [
281
+ 69,
282
+ 0.4
283
+ ],
284
+ [
285
+ 70,
286
+ 0.44999999999999984
287
+ ],
288
+ [
289
+ 71,
290
+ 1.0
291
+ ],
292
+ [
293
+ 72,
294
+ 0.95
295
+ ],
296
+ [
297
+ 73,
298
+ 0.050000000000000044
299
+ ],
300
+ [
301
+ 74,
302
+ 0.30000000000000004
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.95
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 0.30000000000000004
319
+ ],
320
+ [
321
+ 79,
322
+ 0.5499999999999998
323
+ ],
324
+ [
325
+ 80,
326
+ 0.25
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.0
343
+ ],
344
+ [
345
+ 85,
346
+ 0.30000000000000004
347
+ ],
348
+ [
349
+ 86,
350
+ 0.050000000000000044
351
+ ],
352
+ [
353
+ 87,
354
+ 0.6000000000000001
355
+ ],
356
+ [
357
+ 88,
358
+ 0.5499999999999998
359
+ ],
360
+ [
361
+ 89,
362
+ 0.0
363
+ ],
364
+ [
365
+ 90,
366
+ 0.050000000000000044
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.8999999999999999
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 0.4999999999999999
383
+ ],
384
+ [
385
+ 95,
386
+ 0.0
387
+ ],
388
+ [
389
+ 96,
390
+ 0.4
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.0
399
+ ],
400
+ [
401
+ 99,
402
+ 0.050000000000000044
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 0.0
411
+ ],
412
+ [
413
+ 102,
414
+ 0.0
415
+ ],
416
+ [
417
+ 103,
418
+ 0.95
419
+ ],
420
+ [
421
+ 104,
422
+ 0.0
423
+ ],
424
+ [
425
+ 105,
426
+ 0.0
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.0
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.0
451
+ ],
452
+ [
453
+ 112,
454
+ 0.95
455
+ ],
456
+ [
457
+ 113,
458
+ 0.050000000000000044
459
+ ],
460
+ [
461
+ 114,
462
+ 0.95
463
+ ],
464
+ [
465
+ 115,
466
+ 0.0
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.20000000000000007
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.15000000000000002
491
+ ],
492
+ [
493
+ 122,
494
+ 0.0
495
+ ],
496
+ [
497
+ 123,
498
+ 0.050000000000000044
499
+ ],
500
+ [
501
+ 124,
502
+ 0.15000000000000002
503
+ ],
504
+ [
505
+ 125,
506
+ 0.0
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 0.75
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.4
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.4999999999999999
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.25
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 0.7999999999999999
575
+ ],
576
+ [
577
+ 143,
578
+ 0.20000000000000007
579
+ ],
580
+ [
581
+ 144,
582
+ 0.0
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.09999999999999998
595
+ ],
596
+ [
597
+ 148,
598
+ 0.6000000000000001
599
+ ],
600
+ [
601
+ 149,
602
+ 0.3500000000000001
603
+ ],
604
+ [
605
+ 150,
606
+ 0.4
607
+ ],
608
+ [
609
+ 151,
610
+ 0.09999999999999998
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.050000000000000044
619
+ ],
620
+ [
621
+ 154,
622
+ 0.0
623
+ ],
624
+ [
625
+ 155,
626
+ 0.0
627
+ ],
628
+ [
629
+ 156,
630
+ 0.0
631
+ ],
632
+ [
633
+ 157,
634
+ 0.3500000000000001
635
+ ],
636
+ [
637
+ 158,
638
+ 0.85
639
+ ],
640
+ [
641
+ 159,
642
+ 0.30000000000000004
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.0
651
+ ],
652
+ [
653
+ 162,
654
+ 0.95
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.8947368421052632
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 0.9837461300309598
685
+ ],
686
+ [
687
+ 6,
688
+ 0.9837461300309598
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 0.9984520123839009
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 0.763157894736842
733
+ ],
734
+ [
735
+ 18,
736
+ 0.9999945874558878
737
+ ],
738
+ [
739
+ 19,
740
+ 1.0
741
+ ],
742
+ [
743
+ 20,
744
+ 1.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.5
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 1.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 1.0
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.5
933
+ ],
934
+ [
935
+ 68,
936
+ 0.9984520123839009
937
+ ],
938
+ [
939
+ 69,
940
+ 0.9996427720885925
941
+ ],
942
+ [
943
+ 70,
944
+ 0.9999404620147654
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.5
957
+ ],
958
+ [
959
+ 74,
960
+ 0.9945820433436533
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.0
973
+ ],
974
+ [
975
+ 78,
976
+ 0.9945820433436533
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 0.9837461300309598
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 0.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 0.9945820433436533
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 0.5
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 0.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.5
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.9999945874558878
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.9996427720885925
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 0.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.5
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.0
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 0.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.5
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.0
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.956656346749226
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 0.8947368421052632
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 0.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.5
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.8947368421052632
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 1.0
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.9996427720885925
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 0.9999945874558878
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.9837461300309598
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.956656346749226
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 0.763157894736842
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.9984520123839009
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.9996427720885925
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.763157894736842
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.5
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 0.9984520123839009
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.9945820433436533
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "deepseek-coder-6.7b-base",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "5_deepseek-coder-6.7b-base_generations_humaneval_deepseek-coder-6.7b-base.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "deepseek-coder-6.7b-base-result.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/6_deepseek_coder-6.7b-instruct-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.4999999999999999
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 1.0
27
+ ],
28
+ [
29
+ 6,
30
+ 1.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.0
43
+ ],
44
+ [
45
+ 10,
46
+ 1.0
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 0.95
71
+ ],
72
+ [
73
+ 17,
74
+ 1.0
75
+ ],
76
+ [
77
+ 18,
78
+ 1.0
79
+ ],
80
+ [
81
+ 19,
82
+ 0.25
83
+ ],
84
+ [
85
+ 20,
86
+ 1.0
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 1.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.050000000000000044
135
+ ],
136
+ [
137
+ 33,
138
+ 1.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 1.0
151
+ ],
152
+ [
153
+ 37,
154
+ 1.0
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 1.0
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 1.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 0.09999999999999998
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.65
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 1.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.95
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 1.0
251
+ ],
252
+ [
253
+ 62,
254
+ 0.0
255
+ ],
256
+ [
257
+ 63,
258
+ 0.95
259
+ ],
260
+ [
261
+ 64,
262
+ 0.20000000000000007
263
+ ],
264
+ [
265
+ 65,
266
+ 0.0
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.09999999999999998
275
+ ],
276
+ [
277
+ 68,
278
+ 0.7
279
+ ],
280
+ [
281
+ 69,
282
+ 1.0
283
+ ],
284
+ [
285
+ 70,
286
+ 1.0
287
+ ],
288
+ [
289
+ 71,
290
+ 1.0
291
+ ],
292
+ [
293
+ 72,
294
+ 1.0
295
+ ],
296
+ [
297
+ 73,
298
+ 1.0
299
+ ],
300
+ [
301
+ 74,
302
+ 0.7999999999999999
303
+ ],
304
+ [
305
+ 75,
306
+ 0.30000000000000004
307
+ ],
308
+ [
309
+ 76,
310
+ 0.15000000000000002
311
+ ],
312
+ [
313
+ 77,
314
+ 0.20000000000000007
315
+ ],
316
+ [
317
+ 78,
318
+ 0.85
319
+ ],
320
+ [
321
+ 79,
322
+ 1.0
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 1.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.0
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.95
351
+ ],
352
+ [
353
+ 87,
354
+ 1.0
355
+ ],
356
+ [
357
+ 88,
358
+ 0.7999999999999999
359
+ ],
360
+ [
361
+ 89,
362
+ 0.7
363
+ ],
364
+ [
365
+ 90,
366
+ 0.15000000000000002
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.75
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 1.0
383
+ ],
384
+ [
385
+ 95,
386
+ 0.0
387
+ ],
388
+ [
389
+ 96,
390
+ 1.0
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 1.0
399
+ ],
400
+ [
401
+ 99,
402
+ 0.4
403
+ ],
404
+ [
405
+ 100,
406
+ 1.0
407
+ ],
408
+ [
409
+ 101,
410
+ 1.0
411
+ ],
412
+ [
413
+ 102,
414
+ 1.0
415
+ ],
416
+ [
417
+ 103,
418
+ 0.8999999999999999
419
+ ],
420
+ [
421
+ 104,
422
+ 1.0
423
+ ],
424
+ [
425
+ 105,
426
+ 0.4
427
+ ],
428
+ [
429
+ 106,
430
+ 1.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.7999999999999999
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.09999999999999998
443
+ ],
444
+ [
445
+ 110,
446
+ 1.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.09999999999999998
451
+ ],
452
+ [
453
+ 112,
454
+ 1.0
455
+ ],
456
+ [
457
+ 113,
458
+ 0.44999999999999984
459
+ ],
460
+ [
461
+ 114,
462
+ 0.95
463
+ ],
464
+ [
465
+ 115,
466
+ 0.0
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 1.0
475
+ ],
476
+ [
477
+ 118,
478
+ 1.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.25
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 1.0
491
+ ],
492
+ [
493
+ 122,
494
+ 1.0
495
+ ],
496
+ [
497
+ 123,
498
+ 0.8999999999999999
499
+ ],
500
+ [
501
+ 124,
502
+ 0.44999999999999984
503
+ ],
504
+ [
505
+ 125,
506
+ 0.8999999999999999
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.0
515
+ ],
516
+ [
517
+ 128,
518
+ 0.15000000000000002
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 1.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.09999999999999998
543
+ ],
544
+ [
545
+ 135,
546
+ 0.5499999999999998
547
+ ],
548
+ [
549
+ 136,
550
+ 1.0
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.0
559
+ ],
560
+ [
561
+ 139,
562
+ 1.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.050000000000000044
567
+ ],
568
+ [
569
+ 141,
570
+ 0.3500000000000001
571
+ ],
572
+ [
573
+ 142,
574
+ 1.0
575
+ ],
576
+ [
577
+ 143,
578
+ 1.0
579
+ ],
580
+ [
581
+ 144,
582
+ 0.15000000000000002
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 1.0
591
+ ],
592
+ [
593
+ 147,
594
+ 0.95
595
+ ],
596
+ [
597
+ 148,
598
+ 1.0
599
+ ],
600
+ [
601
+ 149,
602
+ 0.7
603
+ ],
604
+ [
605
+ 150,
606
+ 1.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.0
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 1.0
619
+ ],
620
+ [
621
+ 154,
622
+ 0.8999999999999999
623
+ ],
624
+ [
625
+ 155,
626
+ 0.85
627
+ ],
628
+ [
629
+ 156,
630
+ 0.7
631
+ ],
632
+ [
633
+ 157,
634
+ 1.0
635
+ ],
636
+ [
637
+ 158,
638
+ 1.0
639
+ ],
640
+ [
641
+ 159,
642
+ 1.0
643
+ ],
644
+ [
645
+ 160,
646
+ 0.30000000000000004
647
+ ],
648
+ [
649
+ 161,
650
+ 1.0
651
+ ],
652
+ [
653
+ 162,
654
+ 1.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.9999945874558878
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 1.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 0.0
701
+ ],
702
+ [
703
+ 10,
704
+ 1.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 1.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.9837461300309598
741
+ ],
742
+ [
743
+ 20,
744
+ 1.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.5
793
+ ],
794
+ [
795
+ 33,
796
+ 1.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 1.0
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 1.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 1.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 0.763157894736842
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 0.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.956656346749226
921
+ ],
922
+ [
923
+ 65,
924
+ 0.0
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.763157894736842
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 1.0
941
+ ],
942
+ [
943
+ 70,
944
+ 1.0
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 1.0
957
+ ],
958
+ [
959
+ 74,
960
+ 1.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.9945820433436533
965
+ ],
966
+ [
967
+ 76,
968
+ 0.8947368421052632
969
+ ],
970
+ [
971
+ 77,
972
+ 0.956656346749226
973
+ ],
974
+ [
975
+ 78,
976
+ 1.0
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.8947368421052632
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 1.0
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 1.0
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.9996427720885925
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 1.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 1.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 1.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 1.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.9996427720885925
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 1.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.763157894736842
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 1.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.763157894736842
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.9999404620147654
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.0
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 1.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 1.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.9837461300309598
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 1.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.9999404620147654
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 1.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.8947368421052632
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 1.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.763157894736842
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 1.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.0
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 1.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.5
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.9984520123839009
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 1.0
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.8947368421052632
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 1.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 1.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 1.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.0
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 1.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 1.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 1.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 1.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 1.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.9945820433436533
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 1.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "deepseek-coder-6.7b-instruct",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "generations_humaneval_deepseek-coder-6.7b-instruct.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "evaluation_results.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/7_deepseek_coder_33b-base-results.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.15000000000000002
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.7999999999999999
27
+ ],
28
+ [
29
+ 6,
30
+ 0.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 0.050000000000000044
39
+ ],
40
+ [
41
+ 9,
42
+ 0.8999999999999999
43
+ ],
44
+ [
45
+ 10,
46
+ 0.95
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 0.15000000000000002
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.0
75
+ ],
76
+ [
77
+ 18,
78
+ 0.3500000000000001
79
+ ],
80
+ [
81
+ 19,
82
+ 0.20000000000000007
83
+ ],
84
+ [
85
+ 20,
86
+ 0.7999999999999999
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 1.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 0.30000000000000004
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.5499999999999998
151
+ ],
152
+ [
153
+ 37,
154
+ 0.6000000000000001
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.95
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 0.6000000000000001
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 1.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.7999999999999999
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.85
251
+ ],
252
+ [
253
+ 62,
254
+ 1.0
255
+ ],
256
+ [
257
+ 63,
258
+ 0.5499999999999998
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 1.0
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.0
275
+ ],
276
+ [
277
+ 68,
278
+ 1.0
279
+ ],
280
+ [
281
+ 69,
282
+ 0.0
283
+ ],
284
+ [
285
+ 70,
286
+ 1.0
287
+ ],
288
+ [
289
+ 71,
290
+ 0.95
291
+ ],
292
+ [
293
+ 72,
294
+ 0.95
295
+ ],
296
+ [
297
+ 73,
298
+ 0.0
299
+ ],
300
+ [
301
+ 74,
302
+ 0.20000000000000007
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.95
311
+ ],
312
+ [
313
+ 77,
314
+ 0.050000000000000044
315
+ ],
316
+ [
317
+ 78,
318
+ 0.3500000000000001
319
+ ],
320
+ [
321
+ 79,
322
+ 0.85
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.3500000000000001
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.050000000000000044
343
+ ],
344
+ [
345
+ 85,
346
+ 0.95
347
+ ],
348
+ [
349
+ 86,
350
+ 0.85
351
+ ],
352
+ [
353
+ 87,
354
+ 0.95
355
+ ],
356
+ [
357
+ 88,
358
+ 0.85
359
+ ],
360
+ [
361
+ 89,
362
+ 0.6000000000000001
363
+ ],
364
+ [
365
+ 90,
366
+ 0.0
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 0.95
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 0.3500000000000001
383
+ ],
384
+ [
385
+ 95,
386
+ 0.7999999999999999
387
+ ],
388
+ [
389
+ 96,
390
+ 0.4999999999999999
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.7
399
+ ],
400
+ [
401
+ 99,
402
+ 0.0
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 0.95
411
+ ],
412
+ [
413
+ 102,
414
+ 0.0
415
+ ],
416
+ [
417
+ 103,
418
+ 0.4999999999999999
419
+ ],
420
+ [
421
+ 104,
422
+ 0.75
423
+ ],
424
+ [
425
+ 105,
426
+ 0.20000000000000007
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.44999999999999984
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.15000000000000002
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.30000000000000004
451
+ ],
452
+ [
453
+ 112,
454
+ 1.0
455
+ ],
456
+ [
457
+ 113,
458
+ 0.0
459
+ ],
460
+ [
461
+ 114,
462
+ 0.85
463
+ ],
464
+ [
465
+ 115,
466
+ 0.050000000000000044
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.3500000000000001
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 0.20000000000000007
491
+ ],
492
+ [
493
+ 122,
494
+ 0.8999999999999999
495
+ ],
496
+ [
497
+ 123,
498
+ 0.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.0
503
+ ],
504
+ [
505
+ 125,
506
+ 0.25
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.050000000000000044
515
+ ],
516
+ [
517
+ 128,
518
+ 0.4999999999999999
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.44999999999999984
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.09999999999999998
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.6000000000000001
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.3500000000000001
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.30000000000000004
571
+ ],
572
+ [
573
+ 142,
574
+ 0.6000000000000001
575
+ ],
576
+ [
577
+ 143,
578
+ 0.65
579
+ ],
580
+ [
581
+ 144,
582
+ 0.0
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.95
591
+ ],
592
+ [
593
+ 147,
594
+ 0.7999999999999999
595
+ ],
596
+ [
597
+ 148,
598
+ 0.6000000000000001
599
+ ],
600
+ [
601
+ 149,
602
+ 0.15000000000000002
603
+ ],
604
+ [
605
+ 150,
606
+ 0.95
607
+ ],
608
+ [
609
+ 151,
610
+ 0.20000000000000007
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.09999999999999998
619
+ ],
620
+ [
621
+ 154,
622
+ 0.20000000000000007
623
+ ],
624
+ [
625
+ 155,
626
+ 0.44999999999999984
627
+ ],
628
+ [
629
+ 156,
630
+ 0.15000000000000002
631
+ ],
632
+ [
633
+ 157,
634
+ 0.15000000000000002
635
+ ],
636
+ [
637
+ 158,
638
+ 1.0
639
+ ],
640
+ [
641
+ 159,
642
+ 0.0
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.5499999999999998
651
+ ],
652
+ [
653
+ 162,
654
+ 0.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.8947368421052632
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 0.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 0.5
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 1.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 0.8947368421052632
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 0.0
733
+ ],
734
+ [
735
+ 18,
736
+ 0.9984520123839009
737
+ ],
738
+ [
739
+ 19,
740
+ 0.956656346749226
741
+ ],
742
+ [
743
+ 20,
744
+ 1.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.9945820433436533
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 1.0
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 1.0
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.0
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 0.0
941
+ ],
942
+ [
943
+ 70,
944
+ 1.0
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.0
957
+ ],
958
+ [
959
+ 74,
960
+ 0.956656346749226
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.5
973
+ ],
974
+ [
975
+ 78,
976
+ 0.9984520123839009
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 0.9984520123839009
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.5
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.0
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.9984520123839009
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 1.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.9999945874558878
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 1.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 0.9999945874558878
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 1.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.956656346749226
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 0.9999404620147654
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.8947368421052632
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.9945820433436533
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.5
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.9984520123839009
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 0.956656346749226
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.0
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.9837461300309598
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.5
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.9999945874558878
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.9999404620147654
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.763157894736842
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.9984520123839009
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.9945820433436533
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 1.0
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 1.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.8947368421052632
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 1.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.956656346749226
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.763157894736842
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 0.956656346749226
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.9999404620147654
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.8947368421052632
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 0.8947368421052632
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 1.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 0.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "deepseek-coder-33b-base",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "generations_humaneval_deepseek-coder-33b-base.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "deepseek_coder_33b-base_evaluation_results.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/8_deepseek_coder_33b-instruct-results.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.6000000000000001
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.8999999999999999
27
+ ],
28
+ [
29
+ 6,
30
+ 0.0
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 0.75
39
+ ],
40
+ [
41
+ 9,
42
+ 0.65
43
+ ],
44
+ [
45
+ 10,
46
+ 1.0
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.0
75
+ ],
76
+ [
77
+ 18,
78
+ 0.75
79
+ ],
80
+ [
81
+ 19,
82
+ 0.09999999999999998
83
+ ],
84
+ [
85
+ 20,
86
+ 0.75
87
+ ],
88
+ [
89
+ 21,
90
+ 1.0
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 1.0
103
+ ],
104
+ [
105
+ 25,
106
+ 1.0
107
+ ],
108
+ [
109
+ 26,
110
+ 0.4999999999999999
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.7999999999999999
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 1.0
151
+ ],
152
+ [
153
+ 37,
154
+ 1.0
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.6000000000000001
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 0.5499999999999998
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 1.0
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 1.0
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 1.0
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 1.0
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 1.0
251
+ ],
252
+ [
253
+ 62,
254
+ 1.0
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.30000000000000004
263
+ ],
264
+ [
265
+ 65,
266
+ 0.95
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.0
275
+ ],
276
+ [
277
+ 68,
278
+ 0.4999999999999999
279
+ ],
280
+ [
281
+ 69,
282
+ 0.4
283
+ ],
284
+ [
285
+ 70,
286
+ 1.0
287
+ ],
288
+ [
289
+ 71,
290
+ 0.95
291
+ ],
292
+ [
293
+ 72,
294
+ 1.0
295
+ ],
296
+ [
297
+ 73,
298
+ 0.0
299
+ ],
300
+ [
301
+ 74,
302
+ 0.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.20000000000000007
307
+ ],
308
+ [
309
+ 76,
310
+ 0.7
311
+ ],
312
+ [
313
+ 77,
314
+ 0.20000000000000007
315
+ ],
316
+ [
317
+ 78,
318
+ 1.0
319
+ ],
320
+ [
321
+ 79,
322
+ 1.0
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 1.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.20000000000000007
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.8999999999999999
351
+ ],
352
+ [
353
+ 87,
354
+ 0.44999999999999984
355
+ ],
356
+ [
357
+ 88,
358
+ 1.0
359
+ ],
360
+ [
361
+ 89,
362
+ 1.0
363
+ ],
364
+ [
365
+ 90,
366
+ 0.0
367
+ ],
368
+ [
369
+ 91,
370
+ 0.0
371
+ ],
372
+ [
373
+ 92,
374
+ 1.0
375
+ ],
376
+ [
377
+ 93,
378
+ 0.0
379
+ ],
380
+ [
381
+ 94,
382
+ 1.0
383
+ ],
384
+ [
385
+ 95,
386
+ 0.09999999999999998
387
+ ],
388
+ [
389
+ 96,
390
+ 1.0
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 1.0
399
+ ],
400
+ [
401
+ 99,
402
+ 0.0
403
+ ],
404
+ [
405
+ 100,
406
+ 0.20000000000000007
407
+ ],
408
+ [
409
+ 101,
410
+ 1.0
411
+ ],
412
+ [
413
+ 102,
414
+ 0.4
415
+ ],
416
+ [
417
+ 103,
418
+ 1.0
419
+ ],
420
+ [
421
+ 104,
422
+ 1.0
423
+ ],
424
+ [
425
+ 105,
426
+ 0.95
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.0
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.7999999999999999
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.75
451
+ ],
452
+ [
453
+ 112,
454
+ 1.0
455
+ ],
456
+ [
457
+ 113,
458
+ 0.4
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 0.15000000000000002
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.7999999999999999
475
+ ],
476
+ [
477
+ 118,
478
+ 0.44999999999999984
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 1.0
491
+ ],
492
+ [
493
+ 122,
494
+ 1.0
495
+ ],
496
+ [
497
+ 123,
498
+ 0.3500000000000001
499
+ ],
500
+ [
501
+ 124,
502
+ 0.5499999999999998
503
+ ],
504
+ [
505
+ 125,
506
+ 0.5499999999999998
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.7999999999999999
515
+ ],
516
+ [
517
+ 128,
518
+ 0.6000000000000001
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.30000000000000004
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 1.0
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.5499999999999998
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.65
571
+ ],
572
+ [
573
+ 142,
574
+ 1.0
575
+ ],
576
+ [
577
+ 143,
578
+ 1.0
579
+ ],
580
+ [
581
+ 144,
582
+ 0.7
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.85
591
+ ],
592
+ [
593
+ 147,
594
+ 1.0
595
+ ],
596
+ [
597
+ 148,
598
+ 0.15000000000000002
599
+ ],
600
+ [
601
+ 149,
602
+ 0.20000000000000007
603
+ ],
604
+ [
605
+ 150,
606
+ 1.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.20000000000000007
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 1.0
619
+ ],
620
+ [
621
+ 154,
622
+ 0.8999999999999999
623
+ ],
624
+ [
625
+ 155,
626
+ 1.0
627
+ ],
628
+ [
629
+ 156,
630
+ 0.8999999999999999
631
+ ],
632
+ [
633
+ 157,
634
+ 0.050000000000000044
635
+ ],
636
+ [
637
+ 158,
638
+ 1.0
639
+ ],
640
+ [
641
+ 159,
642
+ 0.050000000000000044
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 1.0
651
+ ],
652
+ [
653
+ 162,
654
+ 0.4
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 1.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 0.0
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 1.0
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 0.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.763157894736842
741
+ ],
742
+ [
743
+ 20,
744
+ 1.0
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.9999945874558878
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 1.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 1.0
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 1.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 1.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.9945820433436533
921
+ ],
922
+ [
923
+ 65,
924
+ 1.0
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.0
933
+ ],
934
+ [
935
+ 68,
936
+ 0.9999945874558878
937
+ ],
938
+ [
939
+ 69,
940
+ 0.9996427720885925
941
+ ],
942
+ [
943
+ 70,
944
+ 1.0
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.0
957
+ ],
958
+ [
959
+ 74,
960
+ 0.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.956656346749226
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.956656346749226
973
+ ],
974
+ [
975
+ 78,
976
+ 1.0
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.956656346749226
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 0.9999404620147654
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.0
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.0
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.0
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 1.0
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.763157894736842
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 1.0
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.956656346749226
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 1.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 0.9996427720885925
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 1.0
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 1.0
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 0.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 1.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 1.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.9996427720885925
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.8947368421052632
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 1.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.9999404620147654
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.9984520123839009
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 1.0
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 1.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 1.0
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 1.0
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.9945820433436533
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 1.0
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 1.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 1.0
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 1.0
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 1.0
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 0.8947368421052632
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.956656346749226
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 1.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 0.956656346749226
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 1.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 1.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 1.0
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 1.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 0.5
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 0.5
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 1.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 0.9996427720885925
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "deepseek-coder-33b-instruct",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "generations_humaneval_deepseek-coder-33b-instruct.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "deepseek_coder_33b-instruct_evaluation_results.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/9_codeqwen1.5-7b-result.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.09999999999999998
11
+ ],
12
+ [
13
+ 2,
14
+ 1.0
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.30000000000000004
27
+ ],
28
+ [
29
+ 6,
30
+ 0.15000000000000002
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.95
43
+ ],
44
+ [
45
+ 10,
46
+ 0.0
47
+ ],
48
+ [
49
+ 11,
50
+ 0.15000000000000002
51
+ ],
52
+ [
53
+ 12,
54
+ 1.0
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 1.0
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.65
75
+ ],
76
+ [
77
+ 18,
78
+ 0.7
79
+ ],
80
+ [
81
+ 19,
82
+ 0.0
83
+ ],
84
+ [
85
+ 20,
86
+ 0.050000000000000044
87
+ ],
88
+ [
89
+ 21,
90
+ 0.25
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.0
103
+ ],
104
+ [
105
+ 25,
106
+ 0.65
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.0
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 1.0
151
+ ],
152
+ [
153
+ 37,
154
+ 0.050000000000000044
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.15000000000000002
163
+ ],
164
+ [
165
+ 40,
166
+ 0.7999999999999999
167
+ ],
168
+ [
169
+ 41,
170
+ 0.0
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 1.0
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 0.85
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 1.0
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 1.0
227
+ ],
228
+ [
229
+ 56,
230
+ 1.0
231
+ ],
232
+ [
233
+ 57,
234
+ 0.7
235
+ ],
236
+ [
237
+ 58,
238
+ 1.0
239
+ ],
240
+ [
241
+ 59,
242
+ 0.5499999999999998
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 1.0
251
+ ],
252
+ [
253
+ 62,
254
+ 1.0
255
+ ],
256
+ [
257
+ 63,
258
+ 1.0
259
+ ],
260
+ [
261
+ 64,
262
+ 0.15000000000000002
263
+ ],
264
+ [
265
+ 65,
266
+ 0.050000000000000044
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.15000000000000002
275
+ ],
276
+ [
277
+ 68,
278
+ 0.6000000000000001
279
+ ],
280
+ [
281
+ 69,
282
+ 0.0
283
+ ],
284
+ [
285
+ 70,
286
+ 0.4
287
+ ],
288
+ [
289
+ 71,
290
+ 1.0
291
+ ],
292
+ [
293
+ 72,
294
+ 0.7
295
+ ],
296
+ [
297
+ 73,
298
+ 0.4
299
+ ],
300
+ [
301
+ 74,
302
+ 0.4
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.75
311
+ ],
312
+ [
313
+ 77,
314
+ 0.20000000000000007
315
+ ],
316
+ [
317
+ 78,
318
+ 0.75
319
+ ],
320
+ [
321
+ 79,
322
+ 1.0
323
+ ],
324
+ [
325
+ 80,
326
+ 0.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 1.0
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.5499999999999998
343
+ ],
344
+ [
345
+ 85,
346
+ 0.8999999999999999
347
+ ],
348
+ [
349
+ 86,
350
+ 0.3500000000000001
351
+ ],
352
+ [
353
+ 87,
354
+ 0.0
355
+ ],
356
+ [
357
+ 88,
358
+ 1.0
359
+ ],
360
+ [
361
+ 89,
362
+ 0.050000000000000044
363
+ ],
364
+ [
365
+ 90,
366
+ 0.95
367
+ ],
368
+ [
369
+ 91,
370
+ 0.050000000000000044
371
+ ],
372
+ [
373
+ 92,
374
+ 0.44999999999999984
375
+ ],
376
+ [
377
+ 93,
378
+ 0.050000000000000044
379
+ ],
380
+ [
381
+ 94,
382
+ 0.0
383
+ ],
384
+ [
385
+ 95,
386
+ 0.95
387
+ ],
388
+ [
389
+ 96,
390
+ 0.30000000000000004
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.30000000000000004
399
+ ],
400
+ [
401
+ 99,
402
+ 0.85
403
+ ],
404
+ [
405
+ 100,
406
+ 0.0
407
+ ],
408
+ [
409
+ 101,
410
+ 0.0
411
+ ],
412
+ [
413
+ 102,
414
+ 0.6000000000000001
415
+ ],
416
+ [
417
+ 103,
418
+ 0.8999999999999999
419
+ ],
420
+ [
421
+ 104,
422
+ 0.09999999999999998
423
+ ],
424
+ [
425
+ 105,
426
+ 0.09999999999999998
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.75
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.0
443
+ ],
444
+ [
445
+ 110,
446
+ 0.0
447
+ ],
448
+ [
449
+ 111,
450
+ 0.44999999999999984
451
+ ],
452
+ [
453
+ 112,
454
+ 0.95
455
+ ],
456
+ [
457
+ 113,
458
+ 0.0
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 0.30000000000000004
467
+ ],
468
+ [
469
+ 116,
470
+ 1.0
471
+ ],
472
+ [
473
+ 117,
474
+ 0.4
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.0
483
+ ],
484
+ [
485
+ 120,
486
+ 0.0
487
+ ],
488
+ [
489
+ 121,
490
+ 1.0
491
+ ],
492
+ [
493
+ 122,
494
+ 0.6000000000000001
495
+ ],
496
+ [
497
+ 123,
498
+ 1.0
499
+ ],
500
+ [
501
+ 124,
502
+ 0.85
503
+ ],
504
+ [
505
+ 125,
506
+ 0.0
507
+ ],
508
+ [
509
+ 126,
510
+ 0.0
511
+ ],
512
+ [
513
+ 127,
514
+ 0.20000000000000007
515
+ ],
516
+ [
517
+ 128,
518
+ 0.050000000000000044
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 1.0
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.15000000000000002
559
+ ],
560
+ [
561
+ 139,
562
+ 0.0
563
+ ],
564
+ [
565
+ 140,
566
+ 0.0
567
+ ],
568
+ [
569
+ 141,
570
+ 0.0
571
+ ],
572
+ [
573
+ 142,
574
+ 0.7999999999999999
575
+ ],
576
+ [
577
+ 143,
578
+ 0.09999999999999998
579
+ ],
580
+ [
581
+ 144,
582
+ 0.09999999999999998
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.30000000000000004
591
+ ],
592
+ [
593
+ 147,
594
+ 0.65
595
+ ],
596
+ [
597
+ 148,
598
+ 0.65
599
+ ],
600
+ [
601
+ 149,
602
+ 0.050000000000000044
603
+ ],
604
+ [
605
+ 150,
606
+ 0.0
607
+ ],
608
+ [
609
+ 151,
610
+ 0.75
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.4999999999999999
619
+ ],
620
+ [
621
+ 154,
622
+ 0.8999999999999999
623
+ ],
624
+ [
625
+ 155,
626
+ 0.30000000000000004
627
+ ],
628
+ [
629
+ 156,
630
+ 1.0
631
+ ],
632
+ [
633
+ 157,
634
+ 1.0
635
+ ],
636
+ [
637
+ 158,
638
+ 0.7999999999999999
639
+ ],
640
+ [
641
+ 159,
642
+ 0.6000000000000001
643
+ ],
644
+ [
645
+ 160,
646
+ 0.0
647
+ ],
648
+ [
649
+ 161,
650
+ 0.0
651
+ ],
652
+ [
653
+ 162,
654
+ 0.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.763157894736842
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 0.9945820433436533
685
+ ],
686
+ [
687
+ 6,
688
+ 0.8947368421052632
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 1.0
701
+ ],
702
+ [
703
+ 10,
704
+ 0.0
705
+ ],
706
+ [
707
+ 11,
708
+ 0.8947368421052632
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 1.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.0
741
+ ],
742
+ [
743
+ 20,
744
+ 0.5
745
+ ],
746
+ [
747
+ 21,
748
+ 0.9837461300309598
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 0.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.0
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.5
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.8947368421052632
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.0
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 1.0
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 1.0
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 1.0
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 1.0
917
+ ],
918
+ [
919
+ 64,
920
+ 0.8947368421052632
921
+ ],
922
+ [
923
+ 65,
924
+ 0.5
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.8947368421052632
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 0.0
941
+ ],
942
+ [
943
+ 70,
944
+ 0.9996427720885925
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.9996427720885925
957
+ ],
958
+ [
959
+ 74,
960
+ 0.9996427720885925
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 1.0
969
+ ],
970
+ [
971
+ 77,
972
+ 0.956656346749226
973
+ ],
974
+ [
975
+ 78,
976
+ 1.0
977
+ ],
978
+ [
979
+ 79,
980
+ 1.0
981
+ ],
982
+ [
983
+ 80,
984
+ 0.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 1.0
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 0.9984520123839009
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 0.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 1.0
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 0.5
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 1.0
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.5
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 0.9999404620147654
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.5
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.0
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 1.0
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 0.9945820433436533
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 0.9945820433436533
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 1.0
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.0
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.0
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 1.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.763157894736842
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.763157894736842
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.0
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.0
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 0.9999404620147654
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 0.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.9945820433436533
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 1.0
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 0.9996427720885925
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.0
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.0
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 1.0
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 1.0
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.0
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.0
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.956656346749226
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.5
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.8947368421052632
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.0
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.0
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 0.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 1.0
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.763157894736842
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.763157894736842
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.9945820433436533
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 0.5
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.0
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 1.0
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 0.9999945874558878
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 1.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.9945820433436533
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 1.0
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 1.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.0
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.0
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 0.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "CodeQwen1.5-7B",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "generations_humaneval_CodeQwen1.5-7B_humaneval.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "codeqwen1.5_7b-humaneval.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }
evaluate_result/new-model.json ADDED
@@ -0,0 +1,1361 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "humaneval": {
3
+ "pass@1": [
4
+ [
5
+ 0,
6
+ 1.0
7
+ ],
8
+ [
9
+ 1,
10
+ 0.0
11
+ ],
12
+ [
13
+ 2,
14
+ 0.95
15
+ ],
16
+ [
17
+ 3,
18
+ 1.0
19
+ ],
20
+ [
21
+ 4,
22
+ 1.0
23
+ ],
24
+ [
25
+ 5,
26
+ 0.8999999999999999
27
+ ],
28
+ [
29
+ 6,
30
+ 0.20000000000000007
31
+ ],
32
+ [
33
+ 7,
34
+ 1.0
35
+ ],
36
+ [
37
+ 8,
38
+ 1.0
39
+ ],
40
+ [
41
+ 9,
42
+ 0.4999999999999999
43
+ ],
44
+ [
45
+ 10,
46
+ 0.050000000000000044
47
+ ],
48
+ [
49
+ 11,
50
+ 1.0
51
+ ],
52
+ [
53
+ 12,
54
+ 0.8999999999999999
55
+ ],
56
+ [
57
+ 13,
58
+ 1.0
59
+ ],
60
+ [
61
+ 14,
62
+ 0.7999999999999999
63
+ ],
64
+ [
65
+ 15,
66
+ 1.0
67
+ ],
68
+ [
69
+ 16,
70
+ 1.0
71
+ ],
72
+ [
73
+ 17,
74
+ 0.7
75
+ ],
76
+ [
77
+ 18,
78
+ 0.7
79
+ ],
80
+ [
81
+ 19,
82
+ 0.3500000000000001
83
+ ],
84
+ [
85
+ 20,
86
+ 0.4
87
+ ],
88
+ [
89
+ 21,
90
+ 0.85
91
+ ],
92
+ [
93
+ 22,
94
+ 1.0
95
+ ],
96
+ [
97
+ 23,
98
+ 1.0
99
+ ],
100
+ [
101
+ 24,
102
+ 0.8999999999999999
103
+ ],
104
+ [
105
+ 25,
106
+ 0.85
107
+ ],
108
+ [
109
+ 26,
110
+ 0.0
111
+ ],
112
+ [
113
+ 27,
114
+ 1.0
115
+ ],
116
+ [
117
+ 28,
118
+ 1.0
119
+ ],
120
+ [
121
+ 29,
122
+ 1.0
123
+ ],
124
+ [
125
+ 30,
126
+ 1.0
127
+ ],
128
+ [
129
+ 31,
130
+ 1.0
131
+ ],
132
+ [
133
+ 32,
134
+ 0.0
135
+ ],
136
+ [
137
+ 33,
138
+ 0.050000000000000044
139
+ ],
140
+ [
141
+ 34,
142
+ 1.0
143
+ ],
144
+ [
145
+ 35,
146
+ 1.0
147
+ ],
148
+ [
149
+ 36,
150
+ 0.5499999999999998
151
+ ],
152
+ [
153
+ 37,
154
+ 0.25
155
+ ],
156
+ [
157
+ 38,
158
+ 1.0
159
+ ],
160
+ [
161
+ 39,
162
+ 0.0
163
+ ],
164
+ [
165
+ 40,
166
+ 1.0
167
+ ],
168
+ [
169
+ 41,
170
+ 0.050000000000000044
171
+ ],
172
+ [
173
+ 42,
174
+ 1.0
175
+ ],
176
+ [
177
+ 43,
178
+ 1.0
179
+ ],
180
+ [
181
+ 44,
182
+ 1.0
183
+ ],
184
+ [
185
+ 45,
186
+ 1.0
187
+ ],
188
+ [
189
+ 46,
190
+ 0.4999999999999999
191
+ ],
192
+ [
193
+ 47,
194
+ 1.0
195
+ ],
196
+ [
197
+ 48,
198
+ 1.0
199
+ ],
200
+ [
201
+ 49,
202
+ 0.6000000000000001
203
+ ],
204
+ [
205
+ 50,
206
+ 1.0
207
+ ],
208
+ [
209
+ 51,
210
+ 0.8999999999999999
211
+ ],
212
+ [
213
+ 52,
214
+ 1.0
215
+ ],
216
+ [
217
+ 53,
218
+ 1.0
219
+ ],
220
+ [
221
+ 54,
222
+ 0.0
223
+ ],
224
+ [
225
+ 55,
226
+ 0.85
227
+ ],
228
+ [
229
+ 56,
230
+ 0.95
231
+ ],
232
+ [
233
+ 57,
234
+ 0.4
235
+ ],
236
+ [
237
+ 58,
238
+ 0.7999999999999999
239
+ ],
240
+ [
241
+ 59,
242
+ 0.44999999999999984
243
+ ],
244
+ [
245
+ 60,
246
+ 1.0
247
+ ],
248
+ [
249
+ 61,
250
+ 0.95
251
+ ],
252
+ [
253
+ 62,
254
+ 0.7
255
+ ],
256
+ [
257
+ 63,
258
+ 0.4
259
+ ],
260
+ [
261
+ 64,
262
+ 0.0
263
+ ],
264
+ [
265
+ 65,
266
+ 0.4
267
+ ],
268
+ [
269
+ 66,
270
+ 1.0
271
+ ],
272
+ [
273
+ 67,
274
+ 0.25
275
+ ],
276
+ [
277
+ 68,
278
+ 0.7999999999999999
279
+ ],
280
+ [
281
+ 69,
282
+ 0.7
283
+ ],
284
+ [
285
+ 70,
286
+ 0.25
287
+ ],
288
+ [
289
+ 71,
290
+ 0.85
291
+ ],
292
+ [
293
+ 72,
294
+ 0.5499999999999998
295
+ ],
296
+ [
297
+ 73,
298
+ 0.09999999999999998
299
+ ],
300
+ [
301
+ 74,
302
+ 1.0
303
+ ],
304
+ [
305
+ 75,
306
+ 0.0
307
+ ],
308
+ [
309
+ 76,
310
+ 0.15000000000000002
311
+ ],
312
+ [
313
+ 77,
314
+ 0.0
315
+ ],
316
+ [
317
+ 78,
318
+ 0.4999999999999999
319
+ ],
320
+ [
321
+ 79,
322
+ 0.050000000000000044
323
+ ],
324
+ [
325
+ 80,
326
+ 1.0
327
+ ],
328
+ [
329
+ 81,
330
+ 0.0
331
+ ],
332
+ [
333
+ 82,
334
+ 0.5499999999999998
335
+ ],
336
+ [
337
+ 83,
338
+ 0.0
339
+ ],
340
+ [
341
+ 84,
342
+ 0.050000000000000044
343
+ ],
344
+ [
345
+ 85,
346
+ 1.0
347
+ ],
348
+ [
349
+ 86,
350
+ 0.7999999999999999
351
+ ],
352
+ [
353
+ 87,
354
+ 0.5499999999999998
355
+ ],
356
+ [
357
+ 88,
358
+ 0.20000000000000007
359
+ ],
360
+ [
361
+ 89,
362
+ 0.8999999999999999
363
+ ],
364
+ [
365
+ 90,
366
+ 0.09999999999999998
367
+ ],
368
+ [
369
+ 91,
370
+ 0.15000000000000002
371
+ ],
372
+ [
373
+ 92,
374
+ 0.7999999999999999
375
+ ],
376
+ [
377
+ 93,
378
+ 0.050000000000000044
379
+ ],
380
+ [
381
+ 94,
382
+ 0.30000000000000004
383
+ ],
384
+ [
385
+ 95,
386
+ 0.050000000000000044
387
+ ],
388
+ [
389
+ 96,
390
+ 0.8999999999999999
391
+ ],
392
+ [
393
+ 97,
394
+ 1.0
395
+ ],
396
+ [
397
+ 98,
398
+ 0.8999999999999999
399
+ ],
400
+ [
401
+ 99,
402
+ 0.3500000000000001
403
+ ],
404
+ [
405
+ 100,
406
+ 0.15000000000000002
407
+ ],
408
+ [
409
+ 101,
410
+ 0.09999999999999998
411
+ ],
412
+ [
413
+ 102,
414
+ 0.7
415
+ ],
416
+ [
417
+ 103,
418
+ 0.5499999999999998
419
+ ],
420
+ [
421
+ 104,
422
+ 0.3500000000000001
423
+ ],
424
+ [
425
+ 105,
426
+ 0.20000000000000007
427
+ ],
428
+ [
429
+ 106,
430
+ 0.0
431
+ ],
432
+ [
433
+ 107,
434
+ 0.8999999999999999
435
+ ],
436
+ [
437
+ 108,
438
+ 0.0
439
+ ],
440
+ [
441
+ 109,
442
+ 0.15000000000000002
443
+ ],
444
+ [
445
+ 110,
446
+ 0.15000000000000002
447
+ ],
448
+ [
449
+ 111,
450
+ 0.6000000000000001
451
+ ],
452
+ [
453
+ 112,
454
+ 0.7999999999999999
455
+ ],
456
+ [
457
+ 113,
458
+ 0.7
459
+ ],
460
+ [
461
+ 114,
462
+ 1.0
463
+ ],
464
+ [
465
+ 115,
466
+ 0.050000000000000044
467
+ ],
468
+ [
469
+ 116,
470
+ 0.15000000000000002
471
+ ],
472
+ [
473
+ 117,
474
+ 0.65
475
+ ],
476
+ [
477
+ 118,
478
+ 0.0
479
+ ],
480
+ [
481
+ 119,
482
+ 0.09999999999999998
483
+ ],
484
+ [
485
+ 120,
486
+ 0.09999999999999998
487
+ ],
488
+ [
489
+ 121,
490
+ 0.5499999999999998
491
+ ],
492
+ [
493
+ 122,
494
+ 0.85
495
+ ],
496
+ [
497
+ 123,
498
+ 0.4999999999999999
499
+ ],
500
+ [
501
+ 124,
502
+ 0.050000000000000044
503
+ ],
504
+ [
505
+ 125,
506
+ 0.050000000000000044
507
+ ],
508
+ [
509
+ 126,
510
+ 0.050000000000000044
511
+ ],
512
+ [
513
+ 127,
514
+ 0.050000000000000044
515
+ ],
516
+ [
517
+ 128,
518
+ 0.4999999999999999
519
+ ],
520
+ [
521
+ 129,
522
+ 0.0
523
+ ],
524
+ [
525
+ 130,
526
+ 0.0
527
+ ],
528
+ [
529
+ 131,
530
+ 0.0
531
+ ],
532
+ [
533
+ 132,
534
+ 0.0
535
+ ],
536
+ [
537
+ 133,
538
+ 0.0
539
+ ],
540
+ [
541
+ 134,
542
+ 0.0
543
+ ],
544
+ [
545
+ 135,
546
+ 0.0
547
+ ],
548
+ [
549
+ 136,
550
+ 0.8999999999999999
551
+ ],
552
+ [
553
+ 137,
554
+ 0.0
555
+ ],
556
+ [
557
+ 138,
558
+ 0.0
559
+ ],
560
+ [
561
+ 139,
562
+ 0.09999999999999998
563
+ ],
564
+ [
565
+ 140,
566
+ 0.050000000000000044
567
+ ],
568
+ [
569
+ 141,
570
+ 0.65
571
+ ],
572
+ [
573
+ 142,
574
+ 0.25
575
+ ],
576
+ [
577
+ 143,
578
+ 0.15000000000000002
579
+ ],
580
+ [
581
+ 144,
582
+ 0.44999999999999984
583
+ ],
584
+ [
585
+ 145,
586
+ 0.0
587
+ ],
588
+ [
589
+ 146,
590
+ 0.20000000000000007
591
+ ],
592
+ [
593
+ 147,
594
+ 0.8999999999999999
595
+ ],
596
+ [
597
+ 148,
598
+ 0.7
599
+ ],
600
+ [
601
+ 149,
602
+ 0.5499999999999998
603
+ ],
604
+ [
605
+ 150,
606
+ 0.3500000000000001
607
+ ],
608
+ [
609
+ 151,
610
+ 1.0
611
+ ],
612
+ [
613
+ 152,
614
+ 1.0
615
+ ],
616
+ [
617
+ 153,
618
+ 0.75
619
+ ],
620
+ [
621
+ 154,
622
+ 0.5499999999999998
623
+ ],
624
+ [
625
+ 155,
626
+ 0.25
627
+ ],
628
+ [
629
+ 156,
630
+ 0.44999999999999984
631
+ ],
632
+ [
633
+ 157,
634
+ 1.0
635
+ ],
636
+ [
637
+ 158,
638
+ 0.8999999999999999
639
+ ],
640
+ [
641
+ 159,
642
+ 0.8999999999999999
643
+ ],
644
+ [
645
+ 160,
646
+ 0.15000000000000002
647
+ ],
648
+ [
649
+ 161,
650
+ 0.25
651
+ ],
652
+ [
653
+ 162,
654
+ 1.0
655
+ ],
656
+ [
657
+ 163,
658
+ 0.0
659
+ ]
660
+ ],
661
+ "pass@10": [
662
+ [
663
+ 0,
664
+ 1.0
665
+ ],
666
+ [
667
+ 1,
668
+ 0.0
669
+ ],
670
+ [
671
+ 2,
672
+ 1.0
673
+ ],
674
+ [
675
+ 3,
676
+ 1.0
677
+ ],
678
+ [
679
+ 4,
680
+ 1.0
681
+ ],
682
+ [
683
+ 5,
684
+ 1.0
685
+ ],
686
+ [
687
+ 6,
688
+ 0.956656346749226
689
+ ],
690
+ [
691
+ 7,
692
+ 1.0
693
+ ],
694
+ [
695
+ 8,
696
+ 1.0
697
+ ],
698
+ [
699
+ 9,
700
+ 0.9999945874558878
701
+ ],
702
+ [
703
+ 10,
704
+ 0.5
705
+ ],
706
+ [
707
+ 11,
708
+ 1.0
709
+ ],
710
+ [
711
+ 12,
712
+ 1.0
713
+ ],
714
+ [
715
+ 13,
716
+ 1.0
717
+ ],
718
+ [
719
+ 14,
720
+ 1.0
721
+ ],
722
+ [
723
+ 15,
724
+ 1.0
725
+ ],
726
+ [
727
+ 16,
728
+ 1.0
729
+ ],
730
+ [
731
+ 17,
732
+ 1.0
733
+ ],
734
+ [
735
+ 18,
736
+ 1.0
737
+ ],
738
+ [
739
+ 19,
740
+ 0.9984520123839009
741
+ ],
742
+ [
743
+ 20,
744
+ 0.9996427720885925
745
+ ],
746
+ [
747
+ 21,
748
+ 1.0
749
+ ],
750
+ [
751
+ 22,
752
+ 1.0
753
+ ],
754
+ [
755
+ 23,
756
+ 1.0
757
+ ],
758
+ [
759
+ 24,
760
+ 1.0
761
+ ],
762
+ [
763
+ 25,
764
+ 1.0
765
+ ],
766
+ [
767
+ 26,
768
+ 0.0
769
+ ],
770
+ [
771
+ 27,
772
+ 1.0
773
+ ],
774
+ [
775
+ 28,
776
+ 1.0
777
+ ],
778
+ [
779
+ 29,
780
+ 1.0
781
+ ],
782
+ [
783
+ 30,
784
+ 1.0
785
+ ],
786
+ [
787
+ 31,
788
+ 1.0
789
+ ],
790
+ [
791
+ 32,
792
+ 0.0
793
+ ],
794
+ [
795
+ 33,
796
+ 0.5
797
+ ],
798
+ [
799
+ 34,
800
+ 1.0
801
+ ],
802
+ [
803
+ 35,
804
+ 1.0
805
+ ],
806
+ [
807
+ 36,
808
+ 1.0
809
+ ],
810
+ [
811
+ 37,
812
+ 0.9837461300309598
813
+ ],
814
+ [
815
+ 38,
816
+ 1.0
817
+ ],
818
+ [
819
+ 39,
820
+ 0.0
821
+ ],
822
+ [
823
+ 40,
824
+ 1.0
825
+ ],
826
+ [
827
+ 41,
828
+ 0.5
829
+ ],
830
+ [
831
+ 42,
832
+ 1.0
833
+ ],
834
+ [
835
+ 43,
836
+ 1.0
837
+ ],
838
+ [
839
+ 44,
840
+ 1.0
841
+ ],
842
+ [
843
+ 45,
844
+ 1.0
845
+ ],
846
+ [
847
+ 46,
848
+ 0.9999945874558878
849
+ ],
850
+ [
851
+ 47,
852
+ 1.0
853
+ ],
854
+ [
855
+ 48,
856
+ 1.0
857
+ ],
858
+ [
859
+ 49,
860
+ 1.0
861
+ ],
862
+ [
863
+ 50,
864
+ 1.0
865
+ ],
866
+ [
867
+ 51,
868
+ 1.0
869
+ ],
870
+ [
871
+ 52,
872
+ 1.0
873
+ ],
874
+ [
875
+ 53,
876
+ 1.0
877
+ ],
878
+ [
879
+ 54,
880
+ 0.0
881
+ ],
882
+ [
883
+ 55,
884
+ 1.0
885
+ ],
886
+ [
887
+ 56,
888
+ 1.0
889
+ ],
890
+ [
891
+ 57,
892
+ 0.9996427720885925
893
+ ],
894
+ [
895
+ 58,
896
+ 1.0
897
+ ],
898
+ [
899
+ 59,
900
+ 0.9999404620147654
901
+ ],
902
+ [
903
+ 60,
904
+ 1.0
905
+ ],
906
+ [
907
+ 61,
908
+ 1.0
909
+ ],
910
+ [
911
+ 62,
912
+ 1.0
913
+ ],
914
+ [
915
+ 63,
916
+ 0.9996427720885925
917
+ ],
918
+ [
919
+ 64,
920
+ 0.0
921
+ ],
922
+ [
923
+ 65,
924
+ 0.9996427720885925
925
+ ],
926
+ [
927
+ 66,
928
+ 1.0
929
+ ],
930
+ [
931
+ 67,
932
+ 0.9837461300309598
933
+ ],
934
+ [
935
+ 68,
936
+ 1.0
937
+ ],
938
+ [
939
+ 69,
940
+ 1.0
941
+ ],
942
+ [
943
+ 70,
944
+ 0.9837461300309598
945
+ ],
946
+ [
947
+ 71,
948
+ 1.0
949
+ ],
950
+ [
951
+ 72,
952
+ 1.0
953
+ ],
954
+ [
955
+ 73,
956
+ 0.763157894736842
957
+ ],
958
+ [
959
+ 74,
960
+ 1.0
961
+ ],
962
+ [
963
+ 75,
964
+ 0.0
965
+ ],
966
+ [
967
+ 76,
968
+ 0.8947368421052632
969
+ ],
970
+ [
971
+ 77,
972
+ 0.0
973
+ ],
974
+ [
975
+ 78,
976
+ 0.9999945874558878
977
+ ],
978
+ [
979
+ 79,
980
+ 0.5
981
+ ],
982
+ [
983
+ 80,
984
+ 1.0
985
+ ],
986
+ [
987
+ 81,
988
+ 0.0
989
+ ],
990
+ [
991
+ 82,
992
+ 1.0
993
+ ],
994
+ [
995
+ 83,
996
+ 0.0
997
+ ],
998
+ [
999
+ 84,
1000
+ 0.5
1001
+ ],
1002
+ [
1003
+ 85,
1004
+ 1.0
1005
+ ],
1006
+ [
1007
+ 86,
1008
+ 1.0
1009
+ ],
1010
+ [
1011
+ 87,
1012
+ 1.0
1013
+ ],
1014
+ [
1015
+ 88,
1016
+ 0.956656346749226
1017
+ ],
1018
+ [
1019
+ 89,
1020
+ 1.0
1021
+ ],
1022
+ [
1023
+ 90,
1024
+ 0.763157894736842
1025
+ ],
1026
+ [
1027
+ 91,
1028
+ 0.8947368421052632
1029
+ ],
1030
+ [
1031
+ 92,
1032
+ 1.0
1033
+ ],
1034
+ [
1035
+ 93,
1036
+ 0.5
1037
+ ],
1038
+ [
1039
+ 94,
1040
+ 0.9945820433436533
1041
+ ],
1042
+ [
1043
+ 95,
1044
+ 0.5
1045
+ ],
1046
+ [
1047
+ 96,
1048
+ 1.0
1049
+ ],
1050
+ [
1051
+ 97,
1052
+ 1.0
1053
+ ],
1054
+ [
1055
+ 98,
1056
+ 1.0
1057
+ ],
1058
+ [
1059
+ 99,
1060
+ 0.9984520123839009
1061
+ ],
1062
+ [
1063
+ 100,
1064
+ 0.8947368421052632
1065
+ ],
1066
+ [
1067
+ 101,
1068
+ 0.763157894736842
1069
+ ],
1070
+ [
1071
+ 102,
1072
+ 1.0
1073
+ ],
1074
+ [
1075
+ 103,
1076
+ 1.0
1077
+ ],
1078
+ [
1079
+ 104,
1080
+ 0.9984520123839009
1081
+ ],
1082
+ [
1083
+ 105,
1084
+ 0.956656346749226
1085
+ ],
1086
+ [
1087
+ 106,
1088
+ 0.0
1089
+ ],
1090
+ [
1091
+ 107,
1092
+ 1.0
1093
+ ],
1094
+ [
1095
+ 108,
1096
+ 0.0
1097
+ ],
1098
+ [
1099
+ 109,
1100
+ 0.8947368421052632
1101
+ ],
1102
+ [
1103
+ 110,
1104
+ 0.8947368421052632
1105
+ ],
1106
+ [
1107
+ 111,
1108
+ 1.0
1109
+ ],
1110
+ [
1111
+ 112,
1112
+ 1.0
1113
+ ],
1114
+ [
1115
+ 113,
1116
+ 1.0
1117
+ ],
1118
+ [
1119
+ 114,
1120
+ 1.0
1121
+ ],
1122
+ [
1123
+ 115,
1124
+ 0.5
1125
+ ],
1126
+ [
1127
+ 116,
1128
+ 0.8947368421052632
1129
+ ],
1130
+ [
1131
+ 117,
1132
+ 1.0
1133
+ ],
1134
+ [
1135
+ 118,
1136
+ 0.0
1137
+ ],
1138
+ [
1139
+ 119,
1140
+ 0.763157894736842
1141
+ ],
1142
+ [
1143
+ 120,
1144
+ 0.763157894736842
1145
+ ],
1146
+ [
1147
+ 121,
1148
+ 1.0
1149
+ ],
1150
+ [
1151
+ 122,
1152
+ 1.0
1153
+ ],
1154
+ [
1155
+ 123,
1156
+ 0.9999945874558878
1157
+ ],
1158
+ [
1159
+ 124,
1160
+ 0.5
1161
+ ],
1162
+ [
1163
+ 125,
1164
+ 0.5
1165
+ ],
1166
+ [
1167
+ 126,
1168
+ 0.5
1169
+ ],
1170
+ [
1171
+ 127,
1172
+ 0.5
1173
+ ],
1174
+ [
1175
+ 128,
1176
+ 0.9999945874558878
1177
+ ],
1178
+ [
1179
+ 129,
1180
+ 0.0
1181
+ ],
1182
+ [
1183
+ 130,
1184
+ 0.0
1185
+ ],
1186
+ [
1187
+ 131,
1188
+ 0.0
1189
+ ],
1190
+ [
1191
+ 132,
1192
+ 0.0
1193
+ ],
1194
+ [
1195
+ 133,
1196
+ 0.0
1197
+ ],
1198
+ [
1199
+ 134,
1200
+ 0.0
1201
+ ],
1202
+ [
1203
+ 135,
1204
+ 0.0
1205
+ ],
1206
+ [
1207
+ 136,
1208
+ 1.0
1209
+ ],
1210
+ [
1211
+ 137,
1212
+ 0.0
1213
+ ],
1214
+ [
1215
+ 138,
1216
+ 0.0
1217
+ ],
1218
+ [
1219
+ 139,
1220
+ 0.763157894736842
1221
+ ],
1222
+ [
1223
+ 140,
1224
+ 0.5
1225
+ ],
1226
+ [
1227
+ 141,
1228
+ 1.0
1229
+ ],
1230
+ [
1231
+ 142,
1232
+ 0.9837461300309598
1233
+ ],
1234
+ [
1235
+ 143,
1236
+ 0.8947368421052632
1237
+ ],
1238
+ [
1239
+ 144,
1240
+ 0.9999404620147654
1241
+ ],
1242
+ [
1243
+ 145,
1244
+ 0.0
1245
+ ],
1246
+ [
1247
+ 146,
1248
+ 0.956656346749226
1249
+ ],
1250
+ [
1251
+ 147,
1252
+ 1.0
1253
+ ],
1254
+ [
1255
+ 148,
1256
+ 1.0
1257
+ ],
1258
+ [
1259
+ 149,
1260
+ 1.0
1261
+ ],
1262
+ [
1263
+ 150,
1264
+ 0.9984520123839009
1265
+ ],
1266
+ [
1267
+ 151,
1268
+ 1.0
1269
+ ],
1270
+ [
1271
+ 152,
1272
+ 1.0
1273
+ ],
1274
+ [
1275
+ 153,
1276
+ 1.0
1277
+ ],
1278
+ [
1279
+ 154,
1280
+ 1.0
1281
+ ],
1282
+ [
1283
+ 155,
1284
+ 0.9837461300309598
1285
+ ],
1286
+ [
1287
+ 156,
1288
+ 0.9999404620147654
1289
+ ],
1290
+ [
1291
+ 157,
1292
+ 1.0
1293
+ ],
1294
+ [
1295
+ 158,
1296
+ 1.0
1297
+ ],
1298
+ [
1299
+ 159,
1300
+ 1.0
1301
+ ],
1302
+ [
1303
+ 160,
1304
+ 0.8947368421052632
1305
+ ],
1306
+ [
1307
+ 161,
1308
+ 0.9837461300309598
1309
+ ],
1310
+ [
1311
+ 162,
1312
+ 1.0
1313
+ ],
1314
+ [
1315
+ 163,
1316
+ 0.0
1317
+ ]
1318
+ ]
1319
+ },
1320
+ "config": {
1321
+ "prefix": "",
1322
+ "do_sample": true,
1323
+ "temperature": 0.2,
1324
+ "top_k": 0,
1325
+ "top_p": 0.95,
1326
+ "n_samples": 20,
1327
+ "eos": "<|endoftext|>",
1328
+ "seed": 0,
1329
+ "model": "1_java_codegemma-2b_multiple-java",
1330
+ "modeltype": "causal",
1331
+ "peft_model": null,
1332
+ "revision": null,
1333
+ "use_auth_token": false,
1334
+ "trust_remote_code": false,
1335
+ "tasks": "humaneval",
1336
+ "instruction_tokens": null,
1337
+ "batch_size": 1,
1338
+ "max_length_generation": 512,
1339
+ "precision": "fp32",
1340
+ "load_in_8bit": false,
1341
+ "load_in_4bit": false,
1342
+ "left_padding": false,
1343
+ "limit": null,
1344
+ "limit_start": 0,
1345
+ "save_every_k_tasks": -1,
1346
+ "postprocess": true,
1347
+ "allow_code_execution": true,
1348
+ "generation_only": false,
1349
+ "load_generations_path": "1_codegemma-7b-it_generations_humaneval_codegemma-7b-it_humaneval.json",
1350
+ "load_data_path": null,
1351
+ "metric_output_path": "hhhhh.json",
1352
+ "save_generations": false,
1353
+ "load_generations_intermediate_paths": null,
1354
+ "save_generations_path": "generations.json",
1355
+ "save_references": false,
1356
+ "save_references_path": "references.json",
1357
+ "prompt": "prompt",
1358
+ "max_memory_per_gpu": null,
1359
+ "check_references": false
1360
+ }
1361
+ }