Spaces:

MVLLL
/

Multi-view-leaderboard

Running

App Files Files Community

lmy0802 commited on Oct 24, 2024

Commit

c923f73

verified ·

1 Parent(s): 7aedadb

Upload 7 files

Browse files

Files changed (7) hide show

dividing_into_different_subsets/6/EI/CC_EI.csv +12 -0
dividing_into_different_subsets/6/EI/EI.json +0 -0
dividing_into_different_subsets/6/EI/calculate_humaneval_result.py +176 -0
dividing_into_different_subsets/6/EI/even.py +62 -0
dividing_into_different_subsets/6/EI/humaneval_new.json +0 -0
dividing_into_different_subsets/6/EI/line_counts_EI.csv +12 -0
dividing_into_different_subsets/6/EI/token_counts_EI.csv +12 -0

dividing_into_different_subsets/6/EI/CC_EI.csv ADDED Viewed

	@@ -0,0 +1,12 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3,CC_subset_4,CC_subset_5,CC_subset_6
+CodeFuse-DeepSeek-33b,81.63,76.09,46.67,100.0,100.0,66.67
+Nxcode-CQ-7B,87.35,91.41,78.67,20.0,55.0,98.33
+codegemma-2b,31.63,28.26,2.67,0.0,0.0,3.33
+codegemma-7b,46.84,36.09,13.33,0.0,40.0,11.67
+codegemma-7b-it,57.35,54.13,34.67,0.0,5.0,26.67
+deepseek-coder-1.3b-base,38.57,29.57,10.67,0.0,0.0,0.0
+deepseek-coder-6.7b-base,51.68,47.39,15.0,0.0,0.0,6.67
+deepseek_coder-6.7b-instruct,73.16,77.72,56.67,0.0,0.0,48.33
+deepseek_coder_33b-base,56.58,54.46,34.0,0.0,80.0,3.33
+deepseek_coder_33b-instruct,67.86,70.33,53.0,0.0,10.0,51.67
+codeqwen1.5-7b,55.92,53.04,18.33,0.0,95.0,45.0

dividing_into_different_subsets/6/EI/EI.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets/6/EI/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,176 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:/python-testn/pythonProject3/hh_1/evaluate_result'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+# with open("token_counts_EI.csv","w", newline='') as csvfile:
+#     writer = csv.writer(csvfile)
+#     writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3","token_subset_4","token_subset_5","token_subset_6"])
+#
+# with open("line_counts_EI.csv","w", newline='') as csvfile:
+#     writer = csv.writer(csvfile)
+#     writer.writerow(["Model", "line_subset_1", "line_subset_2","line_subset_3","line_subset_4","line_subset_5","line_subset_6"])
+with open("CC_EI.csv", "w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3","CC_subset_4","CC_subset_5","CC_subset_6"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("EI.json", "r", encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    sum3 = 0
+    count3 = 0
+    sum4=0
+    count4=0
+    sum5 = 0
+    count5 = 0
+    for (item1,item2) in zip(data1["humaneval"]["pass@1"],data2):
+    #     #按照token个数划分后的评估结果
+    #     if item2["token_diff"] == 0:
+    #         index, value = item1
+    #         print(item2["token_diff"],index,value)
+    #         sum0=sum0+value
+    #         count0=count0+1
+    #     if item2["token_diff"] == 1:
+    #         index, value = item1
+    #         print(item2["token_diff"], index, value)
+    #         sum1=sum1+value
+    #         count1=count1+1
+    #     if item2["token_diff"] == 2:
+    #         index, value = item1
+    #         print(item2["token_diff"], index, value)
+    #         sum2=sum2+value
+    #         count2=count2+1
+    #     if item2["token_diff"] == 3:
+    #         index, value = item1
+    #         print(item2["token_diff"], index, value)
+    #         sum3=sum3+value
+    #         count3=count3+1
+    #     if item2["token_diff"] == 4:
+    #         index, value = item1
+    #         print(item2["token_diff"], index, value)
+    #         sum4 = sum4 + value
+    #         count4 = count4 + 1
+    #     if item2["token_diff"] ==5:
+    #         index, value = item1
+    #         print(item2["token_diff"], index, value)
+    #         sum5 = sum5 + value
+    #         count5 = count5 + 1
+        #按照行数划分后的评估结果
+        # if item2["line_diff"] == 0:
+        #     index, value = item1
+        #     print(item2["line_diff"],index,value)
+        #     sum0=sum0+value
+        #     count0=count0+1
+        # if item2["line_diff"] == 1:
+        #     index, value = item1
+        #     print(item2["line_diff"], index, value)
+        #     sum1=sum1+value
+        #     count1=count1+1
+        # if item2["line_diff"] == 2:
+        #     index, value = item1
+        #     print(item2["line_diff"], index, value)
+        #     sum2=sum2+value
+        #     count2=count2+1
+        # if item2["line_diff"] == 3:
+        #     index, value = item1
+        #     print(item2["line_diff"], index, value)
+        #     sum3=sum3+value
+        #     count3=count3+1
+        # if item2["line_diff"] == 4:
+        #     index, value = item1
+        #     print(item2["line_diff"], index, value)
+        #     sum4=sum4+value
+        #     count4=count4+1
+        # if item2["line_diff"] == 5:
+        #     index, value = item1
+        #     print(item2["line_diff"], index, value)
+        #     sum5 = sum5 + value
+        #     count5 = count5 + 1
+        #按照圈复杂度划分后的评估结果
+        if item2["CC_diff"] == 0:
+            index, value = item1
+            print(item2["CC_diff"],index,value)
+            sum0=sum0+value
+            count0=count0+1
+        if item2["CC_diff"] == 1:
+            index, value = item1
+            print(item2["CC_diff"], index, value)
+            sum1=sum1+value
+            count1=count1+1
+        if item2["CC_diff"] == 2:
+            index, value = item1
+            print(item2["CC_diff"], index, value)
+            sum2=sum2+value
+            count2=count2+1
+        if item2["CC_diff"] == 3 :
+            index, value = item1
+            print(item2["CC_diff"], index, value)
+            sum3=sum3+value
+            count3=count3+1
+        if item2["CC_diff"] == 4 :
+            index, value = item1
+            print(item2["CC_diff"], index, value)
+            sum4=sum4+value
+            count4=count4+1
+        if item2["CC_diff"] == 5 :
+            index, value = item1
+            print(item2["CC_diff"], index, value)
+            sum5=sum5+value
+            count5=count5+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    mean3=round(sum3/count3*100,2)
+    mean4=round(sum4/count4*100,2)
+    mean5 = round(sum5 / count5 * 100, 2)
+    print("count_result!!")
+    print(count0,count1,count2,count3,count4,count5)
+    print(mean0,mean1,mean2,mean3,count4,mean5)
+    # with open("token_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+    #     writer = csv.writer(file)
+    #     writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4,mean5])
+    # with open("line_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+    #     writer = csv.writer(file)
+    #     writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4,mean5])
+    # #
+    with open("CC_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4,mean5])

dividing_into_different_subsets/6/EI/even.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import json
+# 读取数据
+with open("humaneval_new.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+# 定义划分区间数
+num_intervals = 6
+# 计算每个特征的值范围
+line_min = min(item['line'] for item in data)
+line_max = max(item['line'] for item in data)
+line_interval_size = (line_max - line_min) / num_intervals
+token_min = min(item['token'] for item in data)
+token_max = max(item['token'] for item in data)
+token_interval_size = (token_max - token_min) / num_intervals
+cyclomatic_complexity_min = min(item['cyclomatic_complexity'] for item in data)
+cyclomatic_complexity_max = max(item['cyclomatic_complexity'] for item in data)
+cyclomatic_complexity_interval_size = (cyclomatic_complexity_max - cyclomatic_complexity_min) / num_intervals
+count1=0
+count2=0
+count3=0
+count4=0
+count5=0
+count6=0
+# 根据等距划分数据
+for item in data:
+    # 计算 line 特征的区间
+    line_diff = int((item['line'] - line_min) // line_interval_size)
+    item['line_diff'] = min(line_diff,num_intervals-1) # 确保区间索引在范围内
+    # 计算 token 特征的区间
+    token_diff = int((item['token'] - token_min) // token_interval_size)
+    item['token_diff'] = min(token_diff,num_intervals-1)
+    if item['token_diff'] == 0:
+        count1 = count1 + 1
+    if item['token_diff'] == 1:
+        count2 = count2 + 1
+    if item['token_diff'] == 2:
+        count3 = count3 + 1
+    if item['token_diff'] == 3:
+        count4 = count4 + 1
+    if item['token_diff'] == 4:
+        count5 = count5 + 1
+    if item['token_diff'] == 5:
+        count6 = count6 + 1
+    # 计算 cyclomatic_complexity 特征的区间
+    CC_diff = int((item['cyclomatic_complexity'] - cyclomatic_complexity_min) // cyclomatic_complexity_interval_size)
+    item['CC_diff'] = min(CC_diff,num_intervals-1) # 确保区间索引在范围内
+# 恢复原始顺序
+data.sort(key=lambda x: x['id'])
+print(count1,count2,count3,count4,count5,count6)
+# 将更新后的数据写回JSON文件
+with open('EI.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets/6/EI/humaneval_new.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets/6/EI/line_counts_EI.csv ADDED Viewed

	@@ -0,0 +1,12 @@

+Model,line_subset_1,line_subset_2,line_subset_3,line_subset_4,line_subset_5,line_subset_6
+CodeFuse-DeepSeek-33b,77.27,77.22,76.92,57.14,80.0,100.0
+Nxcode-CQ-7B,90.11,88.1,88.46,82.86,59.0,71.67
+codegemma-2b,47.16,20.44,26.92,6.43,2.0,1.67
+codegemma-7b,56.14,35.38,39.42,20.0,5.0,23.33
+codegemma-7b-it,69.43,50.57,48.46,27.14,26.0,28.33
+deepseek-coder-1.3b-base,49.43,28.04,28.08,6.43,9.0,30.0
+deepseek-coder-6.7b-base,64.89,40.89,47.88,13.57,6.0,11.67
+deepseek_coder-6.7b-instruct,82.39,71.9,71.35,52.86,28.0,23.33
+deepseek_coder_33b-base,72.5,48.99,47.69,32.86,3.0,35.0
+deepseek_coder_33b-instruct,82.95,64.11,61.73,53.57,17.0,21.67
+codeqwen1.5-7b,60.91,49.68,56.54,28.57,12.0,30.0

dividing_into_different_subsets/6/EI/token_counts_EI.csv ADDED Viewed

	@@ -0,0 +1,12 @@

+Model,token_subset_1,token_subset_2,token_subset_3,token_subset_4,token_subset_5,token_subset_6
+CodeFuse-DeepSeek-33b,74.0,86.49,58.33,60.0,80.0,100.0
+Nxcode-CQ-7B,89.8,87.5,87.92,82.5,79.0,20.0
+codegemma-2b,41.0,27.97,13.12,1.0,1.0,0.0
+codegemma-7b,53.1,37.84,32.08,18.0,24.0,0.0
+codegemma-7b-it,68.5,48.38,45.42,45.0,34.0,0.0
+deepseek-coder-1.3b-base,49.4,31.42,15.42,4.5,18.0,0.0
+deepseek-coder-6.7b-base,64.3,44.53,31.46,16.0,13.0,0.0
+deepseek_coder-6.7b-instruct,84.5,71.55,63.54,49.0,41.0,0.0
+deepseek_coder_33b-base,66.2,54.32,37.08,25.5,35.0,0.0
+deepseek_coder_33b-instruct,80.4,67.43,48.75,26.0,81.0,0.0
+codeqwen1.5-7b,65.4,47.3,50.42,28.0,33.0,0.0