Spaces:

BananaSauce
/

batch-run-csv-analyser

Sleeping

App Files Files Community

BananaSauce commited on Aug 1, 2024

Commit

fa82923

verified ·

1 Parent(s): dfff507

shows scenario

Browse files

Files changed (1) hide show

multi_env_compare.py +68 -29

multi_env_compare.py CHANGED Viewed

@@ -8,6 +8,29 @@ import time
 def similar(a, b, threshold=0.9):
     return SequenceMatcher(None, a, b).ratio() > threshold
 def perform_multi_env_analysis(uploaded_dataframes):
     # Concatenate all dataframes into a single dataframe
     combined_data = pd.concat(uploaded_dataframes, ignore_index=True)
@@ -66,10 +89,6 @@ def perform_multi_env_analysis(uploaded_dataframes):
     # Reorder columns
     grouped_data = grouped_data[['Environment', 'Functional area', 'Scenario name', 'Total', 'PASSED', 'FAILED']]
-    # Display the grouped data
-    st.write("### Scenario Counts by Environment and Functional Area")
-    # st.dataframe(grouped_data.style.highlight_max(axis=0, subset=['Total', 'PASSED', 'FAILED']))
     # Display summary statistics
     st.write("### Summary Statistics")
     summary = grouped_data.groupby('Environment').agg({
@@ -86,14 +105,9 @@ def perform_multi_env_analysis(uploaded_dataframes):
     # Define scenarios_by_env here
     scenarios_by_env = {env: set(grouped_data[grouped_data['Environment'] == env]['Scenario name']) for env in selected_environments}
-    # Debug: Print the number of scenarios in each environment
-    for env, scenarios in scenarios_by_env.items():
-        st.write(f"Number of scenarios in {env}: {len(scenarios)}")
     missing_scenarios = []
     mismatched_scenarios = []
-    # New section for efficient inconsistency analysis
     st.write("### Inconsistent Scenario Count Analysis by Functional Area")
     if len(selected_environments) > 1:
@@ -113,31 +127,56 @@ def perform_multi_env_analysis(uploaded_dataframes):
                 st.write(scenario_counts[area])
                 st.write("\n")
-        # Option to show detailed breakdown
-        if st.checkbox("Show detailed scenario count breakdown"):
             st.write(scenario_counts)
     else:
         st.write("Please select at least two environments for comparison.")
-    # Debug: Print the number of missing and mismatched scenarios
-    st.write(f"Number of truly missing scenarios: {len(missing_scenarios)}")
-    st.write(f"Number of scenarios with name differences: {len(mismatched_scenarios)}")
-    if missing_scenarios:
-        st.write("### Truly Missing Scenarios")
-        missing_df = pd.DataFrame(missing_scenarios)
-        st.dataframe(missing_df)
-    else:
-        st.write("No truly missing scenarios found across environments.")
-    if mismatched_scenarios:
-        st.write("### Scenarios with Name Differences")
-        mismatched_df = pd.DataFrame(mismatched_scenarios)
-        st.dataframe(mismatched_df)
-    else:
-        st.write("No scenarios with name differences found across environments.")
 def multi_env_compare_main():
     st.title("Multi-Environment Comparison")

 def similar(a, b, threshold=0.9):
     return SequenceMatcher(None, a, b).ratio() > threshold
+def find_different_scenarios(grouped_data, area):
+    # Filter data for the specific functional area
+    area_data = grouped_data[grouped_data['Functional area'] == area]
+    # Get scenarios for each environment
+    scenarios_by_env = {env: set(area_data[area_data['Environment'] == env]['Scenario name'])
+                        for env in area_data['Environment'].unique()}
+    # Find scenarios that are in one environment but not the other
+    diff_scenarios = []
+    envs = list(scenarios_by_env.keys())
+    for i in range(len(envs)):
+        for j in range(i+1, len(envs)):
+            env1, env2 = envs[i], envs[j]
+            diff = scenarios_by_env[env1] ^ scenarios_by_env[env2]  # symmetric difference
+            for scenario in diff:
+                if scenario in scenarios_by_env[env1]:
+                    diff_scenarios.append((scenario, env1, 'Present', env2, 'Missing'))
+                else:
+                    diff_scenarios.append((scenario, env2, 'Present', env1, 'Missing'))
+    return diff_scenarios
 def perform_multi_env_analysis(uploaded_dataframes):
     # Concatenate all dataframes into a single dataframe
     combined_data = pd.concat(uploaded_dataframes, ignore_index=True)
     # Reorder columns
     grouped_data = grouped_data[['Environment', 'Functional area', 'Scenario name', 'Total', 'PASSED', 'FAILED']]
     # Display summary statistics
     st.write("### Summary Statistics")
     summary = grouped_data.groupby('Environment').agg({
     # Define scenarios_by_env here
     scenarios_by_env = {env: set(grouped_data[grouped_data['Environment'] == env]['Scenario name']) for env in selected_environments}
     missing_scenarios = []
     mismatched_scenarios = []
     st.write("### Inconsistent Scenario Count Analysis by Functional Area")
     if len(selected_environments) > 1:
                 st.write(scenario_counts[area])
                 st.write("\n")
+        # Option to show detailed breakdown with a unique key
+        if st.checkbox("Show detailed scenario count breakdown", key="show_detailed_breakdown"):
             st.write(scenario_counts)
+        # Add a selectbox for choosing the functional area to analyze
+        selected_area = st.selectbox("Select a functional area to analyze:",
+                                     options=[area for area, diff in inconsistent_areas.items() if diff > 0])
+        if selected_area:
+            st.write(f"### Detailed Analysis of Different Scenarios for '{selected_area}'")
+            # Get scenarios for each environment
+            scenarios_by_env = {env: set(filtered_data[(filtered_data['Environment'] == env) &
+                                                       (filtered_data['Functional area'] == selected_area)]['Scenario name'])
+                                for env in selected_environments}
+            # Find scenarios that are different between environments
+            all_scenarios = set.union(*scenarios_by_env.values())
+            diff_scenarios = [scenario for scenario in all_scenarios
+                              if any(scenario not in env_scenarios for env_scenarios in scenarios_by_env.values())]
+            # Create a DataFrame to show presence/absence of scenarios
+            diff_df = pd.DataFrame(index=diff_scenarios, columns=selected_environments)
+            for scenario in diff_scenarios:
+                for env in selected_environments:
+                    diff_df.at[scenario, env] = 'Present' if scenario in scenarios_by_env[env] else 'Missing'
+            diff_df.reset_index(inplace=True)
+            diff_df.rename(columns={'index': 'Scenario'}, inplace=True)
+            # Sort the DataFrame to show scenarios with differences first
+            diff_df['has_diff'] = diff_df.apply(lambda row: len(set(row[1:])) > 1, axis=1)
+            diff_df = diff_df.sort_values('has_diff', ascending=False).drop('has_diff', axis=1)
+            st.write(f"Number of scenarios that differ between environments: {len(diff_scenarios)}")
+            # Display the DataFrame
+            st.dataframe(diff_df)
+            # Provide a download button for the DataFrame
+            csv = diff_df.to_csv(index=False)
+            st.download_button(
+                label="Download CSV",
+                data=csv,
+                file_name=f"{selected_area}_scenario_comparison.csv",
+                mime="text/csv",
+            )
     else:
         st.write("Please select at least two environments for comparison.")
 def multi_env_compare_main():
     st.title("Multi-Environment Comparison")