Spaces:

MVLLL
/

Multi-view-leaderboard

Sleeping

App Files Files Community

lmy0802 commited on Nov 24, 2024

Commit

4daa863

verified ·

1 Parent(s): 1537fc2

Upload 111 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

dividing_into_different_subsets_mbpp/.idea/.gitignore +8 -0
dividing_into_different_subsets_mbpp/.idea/deployment.xml +56 -0
dividing_into_different_subsets_mbpp/.idea/dividing_into_different_subsets_mbpp.iml +8 -0
dividing_into_different_subsets_mbpp/.idea/inspectionProfiles/profiles_settings.xml +6 -0
dividing_into_different_subsets_mbpp/.idea/misc.xml +7 -0
dividing_into_different_subsets_mbpp/.idea/modules.xml +8 -0
dividing_into_different_subsets_mbpp/.idea/workspace.xml +79 -0
dividing_into_different_subsets_mbpp/3/EI/CC_EI.csv +9 -0
dividing_into_different_subsets_mbpp/3/EI/EI.json +0 -0
dividing_into_different_subsets_mbpp/3/EI/calculate_humaneval_result.py +125 -0
dividing_into_different_subsets_mbpp/3/EI/count_num.py +10 -0
dividing_into_different_subsets_mbpp/3/EI/even.py +47 -0
dividing_into_different_subsets_mbpp/3/EI/mbpp.json +0 -0
dividing_into_different_subsets_mbpp/3/EI/mbpp_with_token+cc.json +0 -0
dividing_into_different_subsets_mbpp/3/EI/sub_mbpp.json +0 -0
dividing_into_different_subsets_mbpp/3/EI/token_counts_EI.csv +10 -0
dividing_into_different_subsets_mbpp/3/QS/CC_QS.csv +9 -0
dividing_into_different_subsets_mbpp/3/QS/QS.json +0 -0
dividing_into_different_subsets_mbpp/3/QS/calculate_humaneval_result.py +125 -0
dividing_into_different_subsets_mbpp/3/QS/even.py +50 -0
dividing_into_different_subsets_mbpp/3/QS/flagged/log.csv +2 -0
dividing_into_different_subsets_mbpp/3/QS/mbpp.json +0 -0
dividing_into_different_subsets_mbpp/3/QS/sub_mbpp.json +0 -0
dividing_into_different_subsets_mbpp/3/QS/token_counts_QS.csv +9 -0
dividing_into_different_subsets_mbpp/4/EI/CC_EI.csv +10 -0
dividing_into_different_subsets_mbpp/4/EI/EI.json +0 -0
dividing_into_different_subsets_mbpp/4/EI/calculate_humaneval_result.py +143 -0
dividing_into_different_subsets_mbpp/4/EI/even.py +51 -0
dividing_into_different_subsets_mbpp/4/EI/mbpp.json +0 -0
dividing_into_different_subsets_mbpp/4/EI/mbpp_with_token+cc.json +0 -0
dividing_into_different_subsets_mbpp/4/EI/sub_mbpp.json +0 -0
dividing_into_different_subsets_mbpp/4/EI/token_counts_EI.csv +10 -0
dividing_into_different_subsets_mbpp/4/QS/CC_QS.csv +10 -0
dividing_into_different_subsets_mbpp/4/QS/QS.json +0 -0
dividing_into_different_subsets_mbpp/4/QS/calculate_humaneval_result.py +143 -0
dividing_into_different_subsets_mbpp/4/QS/even.py +65 -0
dividing_into_different_subsets_mbpp/4/QS/mbpp.json +0 -0
dividing_into_different_subsets_mbpp/4/QS/mbpp_with_token+cc.json +0 -0
dividing_into_different_subsets_mbpp/4/QS/sub_mbpp.json +0 -0
dividing_into_different_subsets_mbpp/4/QS/token_counts_QS.csv +10 -0
dividing_into_different_subsets_mbpp/5/EI/CC_EI.csv +9 -0
dividing_into_different_subsets_mbpp/5/EI/EI.json +0 -0
dividing_into_different_subsets_mbpp/5/EI/calculate_humaneval_result.py +167 -0
dividing_into_different_subsets_mbpp/5/EI/even.py +54 -0
dividing_into_different_subsets_mbpp/5/EI/mbpp.json +0 -0
dividing_into_different_subsets_mbpp/5/EI/mbpp_with_token+cc.json +0 -0
dividing_into_different_subsets_mbpp/5/EI/sub_mbpp.json +0 -0
dividing_into_different_subsets_mbpp/5/EI/token_counts_EI.csv +9 -0
dividing_into_different_subsets_mbpp/5/QS/CC_QS.csv +9 -0
dividing_into_different_subsets_mbpp/5/QS/QS.json +0 -0

dividing_into_different_subsets_mbpp/.idea/.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+# 默认忽略的文件
+/shelf/
+/workspace.xml
+# 基于编辑器的 HTTP 客户端请求
+/httpRequests/
+# Datasource local storage ignored files
+/dataSources/
+/dataSources.local.xml

dividing_into_different_subsets_mbpp/.idea/deployment.xml ADDED Viewed

	@@ -0,0 +1,56 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="PublishConfigData" remoteFilesAllowedToDisappearOnAutoupload="false">
+    <serverData>
+      <paths name="[email protected]:37457 password">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:37457 password (2)">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:37457 password (3)">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:37457 password (4)">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:37457 password (5)">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:37457 password (6)">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+      <paths name="[email protected]:33796 password">
+        <serverdata>
+          <mappings>
+            <mapping local="$PROJECT_DIR$" web="/" />
+          </mappings>
+        </serverdata>
+      </paths>
+    </serverData>
+  </component>
+</project>

dividing_into_different_subsets_mbpp/.idea/dividing_into_different_subsets_mbpp.iml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="Python 3.8 (16)" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>

dividing_into_different_subsets_mbpp/.idea/inspectionProfiles/profiles_settings.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>

dividing_into_different_subsets_mbpp/.idea/misc.xml ADDED Viewed

	@@ -0,0 +1,7 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="Black">
+    <option name="sdkName" value="Python 3.8 (16)" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8 (16)" project-jdk-type="Python SDK" />
+</project>

dividing_into_different_subsets_mbpp/.idea/modules.xml ADDED Viewed

	@@ -0,0 +1,8 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/dividing_into_different_subsets_mbpp.iml" filepath="$PROJECT_DIR$/.idea/dividing_into_different_subsets_mbpp.iml" />
+    </modules>
+  </component>
+</project>

dividing_into_different_subsets_mbpp/.idea/workspace.xml ADDED Viewed

	@@ -0,0 +1,79 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="AutoImportSettings">
+    <option name="autoReloadType" value="SELECTIVE" />
+  </component>
+  <component name="ChangeListManager">
+    <list default="true" id="296a4530-732e-4c33-96c5-67af904f859e" name="更改" comment="" />
+    <option name="SHOW_DIALOG" value="false" />
+    <option name="HIGHLIGHT_CONFLICTS" value="true" />
+    <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
+    <option name="LAST_RESOLUTION" value="IGNORE" />
+  </component>
+  <component name="FileTemplateManagerImpl">
+    <option name="RECENT_TEMPLATES">
+      <list>
+        <option value="Python Script" />
+      </list>
+    </option>
+  </component>
+  <component name="ProjectColorInfo"><![CDATA[{
+  "associatedIndex": 7
+}]]></component>
+  <component name="ProjectId" id="2nsh3www4h2kuEzmrz6ssDck37R" />
+  <component name="ProjectViewState">
+    <option name="hideEmptyMiddlePackages" value="true" />
+    <option name="showLibraryContents" value="true" />
+  </component>
+  <component name="PropertiesComponent"><![CDATA[{
+  "keyToString": {
+    "Python.count_num.executor": "Run",
+    "Python.even.executor": "Run",
+    "RunOnceActivity.OpenProjectViewOnStart": "true",
+    "RunOnceActivity.ShowReadmeOnStart": "true",
+    "last_opened_file_path": "E:/python-testn/pythonProject3/hh_2/dividing_into_different_subsets_mbpp/8/QS",
+    "node.js.detected.package.eslint": "true",
+    "node.js.detected.package.tslint": "true",
+    "node.js.selected.package.eslint": "(autodetect)",
+    "node.js.selected.package.tslint": "(autodetect)",
+    "nodejs_package_manager_path": "npm",
+    "settings.editor.selected.configurable": "com.jetbrains.python.configuration.PyActiveSdkModuleConfigurable",
+    "vue.rearranger.settings.migration": "true"
+  }
+}]]></component>
+  <component name="RecentsManager">
+    <key name="CopyFile.RECENT_KEYS">
+      <recent name="E:\python-testn\pythonProject3\hh_2\dividing_into_different_subsets_mbpp\8\QS" />
+      <recent name="E:\python-testn\pythonProject3\hh_2\dividing_into_different_subsets_mbpp\8\EI" />
+      <recent name="E:\python-testn\pythonProject3\hh_2\dividing_into_different_subsets_mbpp\7\QS" />
+      <recent name="E:\python-testn\pythonProject3\hh_2\dividing_into_different_subsets_mbpp\7\EI" />
+      <recent name="E:\python-testn\pythonProject3\hh_2\dividing_into_different_subsets_mbpp\6\QS" />
+    </key>
+  </component>
+  <component name="SharedIndexes">
+    <attachedChunks>
+      <set>
+        <option value="bundled-python-sdk-d68999036c7f-b11f5e8da5ad-com.jetbrains.pycharm.pro.sharedIndexes.bundled-PY-233.14475.56" />
+      </set>
+    </attachedChunks>
+  </component>
+  <component name="SpellCheckerSettings" RuntimeDictionaries="0" Folders="0" CustomDictionaries="0" DefaultDictionary="应用程序级" UseSingleDictionary="true" transferred="true" />
+  <component name="TaskManager">
+    <task active="true" id="Default" summary="默认任务">
+      <changelist id="296a4530-732e-4c33-96c5-67af904f859e" name="更改" comment="" />
+      <created>1729767497954</created>
+      <option name="number" value="Default" />
+      <option name="presentableId" value="Default" />
+      <updated>1729767497954</updated>
+      <workItem from="1729767500446" duration="2417000" />
+    </task>
+    <servers />
+  </component>
+  <component name="TypeScriptGeneratedFilesManager">
+    <option name="version" value="3" />
+  </component>
+  <component name="com.intellij.coverage.CoverageDataManagerImpl">
+    <SUITE FILE_PATH="coverage/dividing_into_different_subsets_mbpp$count_num.coverage" NAME="count_num 覆盖结果" MODIFIED="1729768553330" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/3/EI" />
+    <SUITE FILE_PATH="coverage/dividing_into_different_subsets_mbpp$even.coverage" NAME="even 覆盖结果" MODIFIED="1729769627764" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/8/QS" />
+  </component>
+</project>

dividing_into_different_subsets_mbpp/3/EI/CC_EI.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3
+CodeGemma-2b,44.83,22.0,0.0
+CodeGemma-7b-it,52.78,44.0,0.0
+CodeGemma-7b,59.7,38.67,0.0
+DeepSeekCoder-1.3b-base,41.15,28.67,0.0
+DeepSeekCoder-6.7b-base,60.04,50.0,50.0
+DeepSeekCoder-6.7b-instruct,65.03,55.17,100.0
+codeqwen2.5-1.5b,70.0,52.94,50.0
+codeqwen2.5-7b,78.16,52.94,50.0

dividing_into_different_subsets_mbpp/3/EI/EI.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/EI/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:\python-testn\pythonProject3\hh_2\evaluate_result_mbpp'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+with open("token_counts_EI.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3"])
+with open("CC_EI.csv", "w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("EI.json", "r", encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            if item2["token_diff"] == 0:
+                index=item1["task_id"]
+                print(item2["token_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["token_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["token_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    #print("count_result!!")
+    print(count0,count1,count2)
+    print(mean0,mean1,mean2)
+    with open("token_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2])
+    sum0 = 0
+    count0 = 0
+    sum1 = 0
+    count1 = 0
+    sum2 = 0
+    count2 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            if item2["CC_diff"] == 0:
+                index = item1["task_id"]
+                print(item2["CC_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["CC_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["CC_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    print("count_result!!")
+    print(count0,count1,count2)
+    print(mean0,mean1,mean2)
+    with open("CC_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2])

dividing_into_different_subsets_mbpp/3/EI/count_num.py ADDED Viewed

	@@ -0,0 +1,10 @@

+import json
+with open("mbpp_with_token+cc.json","r",encoding="utf-8") as f:
+    data = json.load(f)
+i=0
+for item in data:
+    item["id"]=i
+    i=i+1
+print(i)
+with open('mbpp.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/3/EI/even.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import json
+# 读取数据
+with open("sub_mbpp.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+# 定义划分区间数
+num_intervals = 3
+# 计算每个特征的值范围
+token_min = min(item['token'] for item in data)
+token_max = max(item['token'] for item in data)
+token_interval_size = (token_max - token_min) / num_intervals
+cyclomatic_complexity_min = min(item['cc'] for item in data)
+cyclomatic_complexity_max = max(item['cc'] for item in data)
+cyclomatic_complexity_interval_size = (cyclomatic_complexity_max - cyclomatic_complexity_min) / num_intervals
+count1=0
+count2=0
+count3=0
+# 根据等距划分数据
+for item in data:
+    # 计算 token 特征的区间
+    token_diff = int((item['token'] - token_min) // token_interval_size)
+    item['token_diff'] = min(token_diff,num_intervals-1)
+    # 计算 cyclomatic_complexity 特征的区间
+    CC_diff = int((item['cc'] - cyclomatic_complexity_min) // cyclomatic_complexity_interval_size)
+    item['CC_diff'] = min(CC_diff,num_intervals-1) # 确保区间索引在范围内
+    if item['CC_diff']==0:
+        count1=count1+1
+    if item['CC_diff'] ==1:
+        count2 = count2 + 1
+    if item['CC_diff']==2:
+        count3=count3+1
+# 恢复原始顺序
+data.sort(key=lambda x: x['id'])
+print(count1,count2,count3)
+# 将更新后的数据写回JSON文件
+with open('EI.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/3/EI/mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/EI/mbpp_with_token+cc.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/EI/sub_mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/EI/token_counts_EI.csv ADDED Viewed

	@@ -0,0 +1,10 @@

+Model,token_subset_1,token_subset_2,token_subset_3
+CodeGemma-2b,45.23,23.64,40.0
+CodeGemma-7b-it,54.15,31.82,40.0
+CodeGemma-7b,60.58,35.91,40.0
+DeepSeekCoder-1.3b-base,43.15,12.73,20.0
+DeepSeekCoder-6.7b-base,60.53,47.73,60.0
+DeepSeekCoder-6.7b-instruct,64.75,60.98,80.0
+codeqwen2.5-1.5b,70.57,57.14,25.0
+codeqwen2.5-7b,77.93,67.86,50.0

dividing_into_different_subsets_mbpp/3/QS/CC_QS.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3
+CodeGemma-2b,52.97,45.82,31.41
+CodeGemma-7b-it,59.88,53.21,43.29
+CodeGemma-7b,66.3,58.18,50.35
+DeepSeekCoder-1.3b-base,49.82,37.82,33.29
+DeepSeekCoder-6.7b-base,67.88,56.97,53.53
+DeepSeekCoder-6.7b-instruct,67.09,66.88,59.88
+codeqwen2.5-1.5b,71.21,74.24,62.22
+codeqwen2.5-7b,84.09,75.0,71.85

dividing_into_different_subsets_mbpp/3/QS/QS.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/QS/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,125 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:\python-testn\pythonProject3\hh_2\evaluate_result_mbpp'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+with open("token_counts_QS.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3"])
+with open("CC_QS.csv", "w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("QS.json", "r", encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            if item2["token_diff"] == 0:
+                index=item1["task_id"]
+                print(item2["token_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["token_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["token_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    #print("count_result!!")
+    print(count0,count1,count2)
+    print(mean0,mean1,mean2)
+    with open("token_counts_QS.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2])
+    sum0 = 0
+    count0 = 0
+    sum1 = 0
+    count1 = 0
+    sum2 = 0
+    count2 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            if item2["CC_diff"] == 0:
+                index = item1["task_id"]
+                print(item2["CC_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["CC_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["CC_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    print("count_result!!")
+    print(count0,count1,count2)
+    print(mean0,mean1,mean2)
+    with open("CC_QS.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2])

dividing_into_different_subsets_mbpp/3/QS/even.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import json
+with open("sub_mbpp.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+# token_counts=[33,33,34]
+# token_counts_I=token_counts[0]*0.01*974
+# token_counts_II=token_counts[1]*0.01*974
+# token_counts_III=164-token_counts_I-token_counts_II
+#
+# cyclomatic_complexity=[33,33,34]
+# cyclomatic_complexity_I=cyclomatic_complexity[0]*0.01*974
+# cyclomatic_complexity_II=cyclomatic_complexity[1]*0.01*974
+# cyclomatic_complexity_III=164-cyclomatic_complexity_II-cyclomatic_complexity_I
+token_counts=[33,33,34]
+token_counts_I=token_counts[0]*0.01*500
+token_counts_II=token_counts[1]*0.01*500
+token_counts_III=164-token_counts_I-token_counts_II
+cyclomatic_complexity=[33,33,34]
+cyclomatic_complexity_I=cyclomatic_complexity[0]*0.01*500
+cyclomatic_complexity_II=cyclomatic_complexity[1]*0.01*500
+cyclomatic_complexity_III=164-cyclomatic_complexity_II-cyclomatic_complexity_I
+data.sort(key=lambda x: x['token'])
+for i, item in enumerate(data):
+    if i < token_counts_I:
+        item['token_diff'] = 0
+    elif i < token_counts_I + token_counts_II:
+        item['token_diff'] = 1
+    else:
+        item['token_diff'] = 2
+data.sort(key=lambda x: x['cc'])
+for i, item in enumerate(data):
+    if i < cyclomatic_complexity_I:
+        item['CC_diff'] = 0
+    elif i < cyclomatic_complexity_I + cyclomatic_complexity_II:
+        item['CC_diff'] = 1
+    else:
+        item['CC_diff'] = 2
+data.sort(key=lambda x: x['id'])
+# 将更新后的数据写回JSON文件
+with open('QS.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/3/QS/flagged/log.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ df,Line Plot,flag,username,timestamp
2	+ "{""headers"": [""Model"", ""line_subset_1"", ""line_subset_2"", ""line_subset_3""], ""data"": [[""CodeFuse-DeepSeek-33b"", 81.82, 72.22, 76.36], [""Nxcode-CQ-7B"", 92.09, 88.33, 81.45], [""codegemma-2b"", 44.09, 17.5, 19.64], [""codegemma-7b"", 52.45, 35.19, 31.64], [""codegemma-7b-it"", 66.36, 49.26, 43.73], [""deepseek-coder-1.3b-base"", 47.45, 26.39, 23], [""deepseek-coder-6.7b-base"", 63.36, 39.35, 34.18], [""deepseek_coder-6.7b-instruct"", 85, 66.85, 62.82], [""deepseek_coder_33b-base"", 68, 48.89, 41.27], [""deepseek_coder_33b-instruct"", 82.09, 62.31, 53.91], [""codeqwen1.5-7b"", 59.73, 48.7, 45.64]], ""metadata"": null}",,,,2024-09-22 18:55:59.262701

dividing_into_different_subsets_mbpp/3/QS/mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/QS/sub_mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/3/QS/token_counts_QS.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,token_subset_1,token_subset_2,token_subset_3
+CodeGemma-2b,50.3,46.79,33.06
+CodeGemma-7b-it,54.67,55.76,45.88
+CodeGemma-7b,62.67,56.85,55.18
+DeepSeekCoder-1.3b-base,44.0,44.24,32.71
+DeepSeekCoder-6.7b-base,64.85,61.21,52.35
+DeepSeekCoder-6.7b-instruct,66.88,64.15,62.8
+codeqwen2.5-1.5b,71.97,70.45,65.19
+codeqwen2.5-7b,83.33,77.27,70.37

dividing_into_different_subsets_mbpp/4/EI/CC_EI.csv ADDED Viewed

	@@ -0,0 +1,10 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3,CC_subset_4
+CodeGemma-2b,45.35,32.38,20.0,0.0
+CodeGemma-7b-it,53.58,44.13,40.0,0.0
+CodeGemma-7b,60.23,47.62,40.0,0.0
+DeepSeekCoder-1.3b-base,40.37,42.22,20.0,0.0
+DeepSeekCoder-6.7b-base,60.23,55.56,40.0,50.0
+DeepSeekCoder-6.7b-instruct,64.82,60.34,80.0,100.0
+codeqwen2.5-1.5b,70.39,62.86,20.0,100.0
+codeqwen2.5-7b,78.49,68.57,20.0,100.0

dividing_into_different_subsets_mbpp/4/EI/EI.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/EI/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,143 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:\python-testn\pythonProject3\hh_2\evaluate_result_mbpp'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+with open("token_counts_EI.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3","token_subset_4"])
+with open("CC_EI.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3","CC_subset_4"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("EI.json","r",encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    sum3 = 0
+    count3 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            #按照token个数划分后的评估结果
+            if item2["token_diff"] == 0:
+                index=item1["task_id"]
+                print(item2["token_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["token_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["token_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["token_diff"] == 3:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+    mean0 = round(sum0 / count0 * 100, 2)
+    mean1 = round(sum1 / count1 * 100, 2)
+    mean2 = round(sum2 / count2 * 100, 2)
+    mean3 = round(sum3 / count3 * 100, 2)
+    print("count_result!!")
+    print(count0, count1, count2, count3)
+    print(mean0, mean1, mean2, mean3)
+    with open("token_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3])
+    sum0 = 0
+    count0 = 0
+    sum1 = 0
+    count1 = 0
+    sum2 = 0
+    count2 = 0
+    sum3 = 0
+    count3 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            #按照圈复杂度划分后的评估结果
+            if item2["CC_diff"] == 0:
+                index = item1["task_id"]
+                print(item2["CC_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["CC_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["CC_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["CC_diff"] == 3 :
+                index=item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    mean3=round(sum3/count3*100,2)
+    print("count_result!!")
+    print(count0,count1,count2,count3)
+    print(mean0,mean1,mean2,mean3)
+    with open("CC_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3])

dividing_into_different_subsets_mbpp/4/EI/even.py ADDED Viewed

	@@ -0,0 +1,51 @@

+import json
+# 读取数据
+with open("sub_mbpp.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+# 定义划分区间数
+num_intervals = 4
+token_min = min(item['token'] for item in data)
+token_max = max(item['token'] for item in data)
+token_interval_size = (token_max - token_min) / num_intervals
+cyclomatic_complexity_min = min(item['cc'] for item in data)
+cyclomatic_complexity_max = max(item['cc'] for item in data)
+cyclomatic_complexity_interval_size = (cyclomatic_complexity_max - cyclomatic_complexity_min) / num_intervals
+count1=0
+count2=0
+count3=0
+count4=0
+# 根据等距划分数据
+for item in data:
+    # 计算 token 特征的区间
+    token_diff = int((item['token'] - token_min) // token_interval_size)
+    item['token_diff'] = min(token_diff,num_intervals-1)
+    if item['token_diff'] == 0:
+        count1 = count1 + 1
+    if item['token_diff'] == 1:
+        count2 = count2 + 1
+    if item['token_diff'] == 2:
+        count3 = count3 + 1
+    if item['token_diff'] == 3:
+        count4 = count4 + 1
+    # 计算 cyclomatic_complexity 特征的区间
+    CC_diff = int((item['cc'] - cyclomatic_complexity_min) // cyclomatic_complexity_interval_size)
+    item['CC_diff'] = min(CC_diff,num_intervals-1) # 确保区间索引在范围内
+# 恢复原始顺序
+data.sort(key=lambda x: x['id'])
+print(count1,count2,count3,count4)
+# 将更新后的数据写回JSON文件
+with open('EI.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/4/EI/mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/EI/mbpp_with_token+cc.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/EI/sub_mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/EI/token_counts_EI.csv ADDED Viewed

	@@ -0,0 +1,10 @@

+Model,token_subset_1,token_subset_2,token_subset_3,token_subset_4
+CodeGemma-2b,47.37,31.65,28.0,33.33
+CodeGemma-7b-it,54.03,48.17,28.0,33.33
+CodeGemma-7b,59.68,56.0,36.0,33.33
+DeepSeekCoder-1.3b-base,44.57,29.04,10.0,33.33
+DeepSeekCoder-6.7b-base,63.17,48.7,40.0,66.67
+DeepSeekCoder-6.7b-instruct,65.45,60.71,77.78,66.67
+codeqwen2.5-1.5b,69.9,66.67,85.71,33.33
+codeqwen2.5-7b,78.26,74.44,57.14,66.67

dividing_into_different_subsets_mbpp/4/QS/CC_QS.csv ADDED Viewed

	@@ -0,0 +1,10 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3,CC_subset_4
+CodeGemma-2b,55.2,46.56,40.96,30.4
+CodeGemma-7b-it,60.0,58.24,46.88,43.04
+CodeGemma-7b,68.48,60.0,55.36,48.96
+DeepSeekCoder-1.3b-base,49.28,43.04,36.48,32.16
+DeepSeekCoder-6.7b-base,65.6,65.6,52.0,54.4
+DeepSeekCoder-6.7b-instruct,68.07,70.83,60.16,59.32
+codeqwen2.5-1.5b,70.0,74.0,69.0,63.64
+codeqwen2.5-7b,87.0,75.0,77.0,68.69

dividing_into_different_subsets_mbpp/4/QS/QS.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/QS/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,143 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:\python-testn\pythonProject3\hh_2\evaluate_result_mbpp'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+with open("token_counts_QS.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3","token_subset_4"])
+with open("CC_QS.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3","CC_subset_4"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("QS.json","r",encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    sum3 = 0
+    count3 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            #按照token个数划分后的评估结果
+            if item2["token_diff"] == 0:
+                index=item1["task_id"]
+                print(item2["token_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["token_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["token_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["token_diff"] == 3:
+                index = item1["task_id"]
+                print(item2["token_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+    mean0 = round(sum0 / count0 * 100, 2)
+    mean1 = round(sum1 / count1 * 100, 2)
+    mean2 = round(sum2 / count2 * 100, 2)
+    mean3 = round(sum3 / count3 * 100, 2)
+    print("count_result!!")
+    print(count0, count1, count2, count3)
+    print(mean0, mean1, mean2, mean3)
+    with open("token_counts_QS.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3])
+    sum0 = 0
+    count0 = 0
+    sum1 = 0
+    count1 = 0
+    sum2 = 0
+    count2 = 0
+    sum3 = 0
+    count3 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+            #按照圈复杂度划分后的评估结果
+            if item2["CC_diff"] == 0:
+                index = item1["task_id"]
+                print(item2["CC_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["CC_diff"] == 1:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["CC_diff"] == 2:
+                index = item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["CC_diff"] == 3 :
+                index=item1["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    mean3=round(sum3/count3*100,2)
+    print("count_result!!")
+    print(count0,count1,count2,count3)
+    print(mean0,mean1,mean2,mean3)
+    with open("CC_QS.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3])

dividing_into_different_subsets_mbpp/4/QS/even.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import json
+with open("sub_mbpp.json","r",encoding="utf-8") as f:
+    data = json.load(f)
+# token_counts=[25,25,25,25]
+# token_counts_I=token_counts[0]*0.01*974
+# token_counts_II=token_counts[1]*0.01*974
+# token_counts_III=token_counts[2]*0.01*974
+# token_counts_IV=token_counts[3]*0.01*974
+#
+#
+#
+# cyclomatic_complexity=[25,25,25,25]
+# cyclomatic_complexity_I=cyclomatic_complexity[0]*0.01*974
+# cyclomatic_complexity_II=cyclomatic_complexity[1]*0.01*974
+# cyclomatic_complexity_III=cyclomatic_complexity[2]*0.01*974
+# cyclomatic_complexity_IV=cyclomatic_complexity[3]*0.01*974
+token_counts=[25,25,25,25]
+token_counts_I=token_counts[0]*0.01*500
+token_counts_II=token_counts[1]*0.01*500
+token_counts_III=token_counts[2]*0.01*500
+token_counts_IV=token_counts[3]*0.01*500
+cyclomatic_complexity=[25,25,25,25]
+cyclomatic_complexity_I=cyclomatic_complexity[0]*0.01*500
+cyclomatic_complexity_II=cyclomatic_complexity[1]*0.01*500
+cyclomatic_complexity_III=cyclomatic_complexity[2]*0.01*500
+cyclomatic_complexity_IV=cyclomatic_complexity[3]*0.01*500
+data.sort(key=lambda x: x['token'])
+for i, item in enumerate(data):
+    if i < token_counts_I:
+        item['token_diff'] = 0
+    elif i < token_counts_I + token_counts_II:
+        item['token_diff'] = 1
+    elif i < token_counts_I + token_counts_II+token_counts_III:
+        item['token_diff'] = 2
+    else:
+        item['token_diff'] = 3
+data.sort(key=lambda x: x['cc'])
+for i, item in enumerate(data):
+    if i < cyclomatic_complexity_I:
+        item['CC_diff'] = 0
+    elif i < cyclomatic_complexity_I + cyclomatic_complexity_II:
+        item['CC_diff'] = 1
+    elif i < cyclomatic_complexity_I + cyclomatic_complexity_II+cyclomatic_complexity_III:
+        item['CC_diff'] = 2
+    else:
+        item['CC_diff'] = 3
+data.sort(key=lambda x: x['id'])
+# 将更新后的数据写回JSON文件
+with open('QS.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/4/QS/mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/QS/mbpp_with_token+cc.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/QS/sub_mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/4/QS/token_counts_QS.csv ADDED Viewed

	@@ -0,0 +1,10 @@

+Model,token_subset_1,token_subset_2,token_subset_3,token_subset_4
+CodeGemma-2b,51.52,44.8,46.08,30.72
+CodeGemma-7b-it,50.4,57.28,54.4,46.08
+CodeGemma-7b,62.08,58.08,58.72,53.92
+DeepSeekCoder-1.3b-base,44.8,44.32,44.96,26.88
+DeepSeekCoder-6.7b-base,63.2,62.4,63.2,48.8
+DeepSeekCoder-6.7b-instruct,66.67,67.2,61.54,62.81
+codeqwen2.5-1.5b,71.0,75.0,63.0,67.68
+codeqwen2.5-7b,83.0,77.0,75.0,72.73

dividing_into_different_subsets_mbpp/5/EI/CC_EI.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3,CC_subset_4,CC_subset_5
+CodeGemma-2b,46.95,35.62,19.0,0.0,0.0
+CodeGemma-7b-it,54.79,46.25,38.0,0.0,0.0
+CodeGemma-7b,60.95,54.79,29.0,50.0,0.0
+DeepSeekCoder-1.3b-base,42.37,36.67,25.0,0.0,0.0
+DeepSeekCoder-6.7b-base,61.05,58.33,35.0,50.0,50.0
+DeepSeekCoder-6.7b-instruct,66.49,58.89,52.63,50.0,100.0
+codeqwen2.5-1.5b,69.44,73.44,28.57,33.33,100.0
+codeqwen2.5-7b,78.7,73.44,57.14,0.0,100.0

dividing_into_different_subsets_mbpp/5/EI/EI.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/5/EI/calculate_humaneval_result.py ADDED Viewed

	@@ -0,0 +1,167 @@

+import json
+import os
+import csv
+# 定义文件所在的目录
+input_dir = 'E:/python-testn/pythonProject3/hh_2/evaluate_result_mbpp'
+# 获取目录中的所有文件
+files = os.listdir(input_dir)
+with open("token_counts_EI.csv","w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "token_subset_1", "token_subset_2","token_subset_3","token_subset_4","token_subset_5"])
+with open("CC_EI.csv", "w", newline='') as csvfile:
+    writer = csv.writer(csvfile)
+    writer.writerow(["Model", "CC_subset_1", "CC_subset_2","CC_subset_3","CC_subset_4","CC_subset_5"])
+for file_name in files:
+    # 构建完整的文件路径
+    input_file_path = os.path.join(input_dir, file_name)
+    first_underscore_index = file_name.find('_')
+    # 找到最后一个 - 的位置
+    last_dash_index = file_name.rfind('-')
+    model_name = file_name[first_underscore_index + 1:last_dash_index]
+    print(model_name)
+    with open(input_file_path,"r",encoding="utf-8") as file:
+        data1=json.load(file)
+    with open("EI.json", "r", encoding="utf-8") as file:
+        data2=json.load(file)
+    sum0=0
+    count0=0
+    sum1=0
+    count1=0
+    sum2=0
+    count2=0
+    sum3 = 0
+    count3 = 0
+    sum4=0
+    count4=0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+    #     #按照token个数划分后的评估结果
+            if item2["token_diff"] == 0:
+                index=item2["task_id"]
+                print(item2["token_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["token_diff"] == 1:
+                index=item2["task_id"]
+                print(item2["token_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["token_diff"] == 2:
+                index=item2["task_id"]
+                print(item2["token_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["token_diff"] == 3:
+                index=item2["task_id"]
+                print(item2["token_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+            if item2["token_diff"] == 4:
+                index=item2["task_id"]
+                print(item2["token_diff"], index, value)
+                sum4 = sum4 + value
+                count4 = count4 + 1
+    mean0 = round(sum0 / count0 * 100, 2)
+    mean1 = round(sum1 / count1 * 100, 2)
+    mean2 = round(sum2 / count2 * 100, 2)
+    mean3 = round(sum3 / count3 * 100, 2)
+    mean4 = round(sum4 / count4 * 100, 2)
+    print("count_result!!")
+    print(count0, count1, count2, count3, count4)
+    print(mean0, mean1, mean2, mean3, count4)
+    with open("token_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4])
+    sum0 = 0
+    count0 = 0
+    sum1 = 0
+    count1 = 0
+    sum2 = 0
+    count2 = 0
+    sum3 = 0
+    count3 = 0
+    sum4 = 0
+    count4 = 0
+    for item1 in data1:
+        task_id = item1["task_id"]  # 假设 task_id 是 item1 中的一个属性
+        value = item1["pass@1"]  # 假设 value 是 item1 中的一个属性
+        # 在 data2 中找到与 task_id 相同的对象
+        item2 = next((item for item in data2 if item["task_id"] == task_id), None)
+        if item2 is not None:
+        #按照圈复杂度划分后的评估结果
+            if item2["CC_diff"] == 0:
+                index=item2["task_id"]
+                print(item2["CC_diff"],index,value)
+                sum0=sum0+value
+                count0=count0+1
+            if item2["CC_diff"] == 1:
+                index=item2["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum1=sum1+value
+                count1=count1+1
+            if item2["CC_diff"] == 2:
+                index=item2["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum2=sum2+value
+                count2=count2+1
+            if item2["CC_diff"] == 3 :
+                index=item2["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum3=sum3+value
+                count3=count3+1
+            if item2["CC_diff"] == 4 :
+                index=item2["task_id"]
+                print(item2["CC_diff"], index, value)
+                sum4=sum4+value
+                count4=count4+1
+    mean0=round(sum0/count0*100,2)
+    mean1=round(sum1/count1*100,2)
+    mean2=round(sum2/count2*100,2)
+    mean3=round(sum3/count3*100,2)
+    mean4=round(sum4/count4*100,2)
+    print("count_result!!")
+    print(count0,count1,count2,count3,count4)
+    print(mean0,mean1,mean2,mean3,count4)
+    # with open("token_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+    #     writer = csv.writer(file)
+    #     writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4])
+    # with open("line_counts_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+    #     writer = csv.writer(file)
+    #     writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4])
+    #
+    with open("CC_EI.csv", mode='a', newline='', encoding='utf-8') as file:
+        writer = csv.writer(file)
+        writer.writerow([model_name,mean0,mean1,mean2,mean3,mean4])

dividing_into_different_subsets_mbpp/5/EI/even.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import json
+# 读取数据
+with open("sub_mbpp.json", "r", encoding="utf-8") as f:
+    data = json.load(f)
+# 定义划分区间数
+num_intervals = 5
+token_min = min(item['token'] for item in data)
+token_max = max(item['token'] for item in data)
+token_interval_size = (token_max - token_min) / num_intervals
+cyclomatic_complexity_min = min(item['cc'] for item in data)
+cyclomatic_complexity_max = max(item['cc'] for item in data)
+cyclomatic_complexity_interval_size = (cyclomatic_complexity_max - cyclomatic_complexity_min) / num_intervals
+count1=0
+count2=0
+count3=0
+count4=0
+count5=0
+# 根据等距划分数据
+for item in data:
+    # 计算 line 特征的区间
+    # 计算 token 特征的区间
+    token_diff = int((item['token'] - token_min) // token_interval_size)
+    item['token_diff'] = min(token_diff,num_intervals-1)
+    if item['token_diff'] == 0:
+        count1 = count1 + 1
+    if item['token_diff'] == 1:
+        count2 = count2 + 1
+    if item['token_diff'] == 2:
+        count3 = count3 + 1
+    if item['token_diff'] == 3:
+        count4 = count4 + 1
+    if item['token_diff'] == 4:
+        count5 = count5 + 1
+    # 计算 cyclomatic_complexity 特征的区间
+    CC_diff = int((item['cc'] - cyclomatic_complexity_min) // cyclomatic_complexity_interval_size)
+    item['CC_diff'] = min(CC_diff,num_intervals-1) # 确保区间索引在范围内
+# 恢复原始顺序
+data.sort(key=lambda x: x['id'])
+print(count1,count2,count3,count4,count5)
+# 将更新后的数据写回JSON文件
+with open('EI.json', 'w', encoding='utf-8') as file:
+    json.dump(data, file, ensure_ascii=False, indent=4)

dividing_into_different_subsets_mbpp/5/EI/mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/5/EI/mbpp_with_token+cc.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/5/EI/sub_mbpp.json ADDED Viewed

The diff for this file is too large to render. See raw diff

dividing_into_different_subsets_mbpp/5/EI/token_counts_EI.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,token_subset_1,token_subset_2,token_subset_3,token_subset_4,token_subset_5
+CodeGemma-2b,49.09,37.09,28.0,50.0,0.0
+CodeGemma-7b-it,54.98,50.05,37.0,50.0,0.0
+CodeGemma-7b,60.22,57.79,38.0,70.0,0.0
+DeepSeekCoder-1.3b-base,44.87,36.88,17.0,25.0,0.0
+DeepSeekCoder-6.7b-base,62.91,55.28,50.0,75.0,50.0
+DeepSeekCoder-6.7b-instruct,66.92,60.42,68.42,100.0,50.0
+codeqwen2.5-1.5b,72.12,65.81,69.23,66.67,0.0
+codeqwen2.5-7b,80.97,72.9,61.54,66.67,50.0

dividing_into_different_subsets_mbpp/5/QS/CC_QS.csv ADDED Viewed

	@@ -0,0 +1,9 @@

+Model,CC_subset_1,CC_subset_2,CC_subset_3,CC_subset_4,CC_subset_5
+CodeGemma-2b,49.4,50.6,48.6,34.2,33.6
+CodeGemma-7b-it,57.2,60.0,55.6,41.0,46.4
+CodeGemma-7b,66.0,66.2,58.4,49.4,51.0
+DeepSeekCoder-1.3b-base,46.4,47.8,37.6,33.2,36.2
+DeepSeekCoder-6.7b-base,64.0,67.0,59.0,51.0,56.0
+DeepSeekCoder-6.7b-instruct,65.96,69.07,64.29,63.27,60.22
+codeqwen2.5-1.5b,70.0,70.0,80.0,58.75,67.09
+codeqwen2.5-7b,86.25,73.75,81.25,72.5,70.89

dividing_into_different_subsets_mbpp/5/QS/QS.json ADDED Viewed

The diff for this file is too large to render. See raw diff