Spaces:

HumbleBeeAI
/

enlighten-qalb

Running

App Files Files Community

eli02 commited on Feb 1

Commit

ee42b39

1 Parent(s): 23d605d

update: Add debug checks and improve data handling in save_reactions_to_dataset function

Browse files

Files changed (1) hide show

app.py +43 -8

app.py CHANGED Viewed

@@ -32,7 +32,22 @@ def load_credentials():
 def authenticate(username, password, credentials):
     return credentials.get(username) == password
 def save_reactions_to_dataset(user_type, username, query, results_mpnet, results_openai):
     data = {
         "user_type": [],
         "username": [],
@@ -61,22 +76,42 @@ def save_reactions_to_dataset(user_type, username, query, results_mpnet, results
         data["reaction"].append(result["reaction"])
     try:
-        # Try to load existing dataset
         dataset = load_dataset("HumbleBeeAI/al-ghazali-rag-retrieval-evaluation", split="train")
         existing_data = dataset.to_dict()
-        # Handle missing columns in existing data
         for key in data:
             if key not in existing_data:
-                # Add default values for existing rows
-                existing_data[key] = ["" if key in ["username", "model_type"] else None] * len(existing_data.get(next(iter(existing_data)), []))
             existing_data[key].extend(data[key])
-    except Exception:
-        # If dataset doesn't exist, use the new data structure
         existing_data = data
-    updated_dataset = Dataset.from_dict(existing_data)
-    updated_dataset.push_to_hub("HumbleBeeAI/al-ghazali-rag-retrieval-evaluation")
 def update_reaction(model_type, idx):
     st.session_state.reactions[f"reaction_{model_type}_{idx}"] = st.session_state[f"reaction_{model_type}_{idx}"]

 def authenticate(username, password, credentials):
     return credentials.get(username) == password
+def debug_check_before_save(data_dict):
+    # Check lengths
+    lengths = {k: len(v) for k, v in data_dict.items()}
+    print("\nDebug Check Results:")
+    print(f"All column lengths: {lengths}")
+    # Check last few entries
+    print("\nLast 4 entries of each column:")
+    for key, values in data_dict.items():
+        print(f"\n{key}:")
+        print(values[-4:])
+    return len(set(lengths.values())) == 1  # Returns True if all lengths match
 def save_reactions_to_dataset(user_type, username, query, results_mpnet, results_openai):
+    # First prepare the new data
     data = {
         "user_type": [],
         "username": [],
         data["reaction"].append(result["reaction"])
     try:
+        # Load existing dataset
         dataset = load_dataset("HumbleBeeAI/al-ghazali-rag-retrieval-evaluation", split="train")
         existing_data = dataset.to_dict()
+        # Calculate the exact existing length once
+        existing_length = len(next(iter(existing_data.values())))
+        print(f"Existing dataset length: {existing_length}")
+        print(f"New entries to add: {len(data['user_type'])}")  # Debug print
+        # Handle missing columns
         for key in data:
             if key not in existing_data:
+                # Initialize missing columns with exactly existing_length entries
+                existing_data[key] = ["" if key in ["username", "model_type"] else None] * existing_length
+        # Now extend with new data
+        for key in data:
             existing_data[key].extend(data[key])
+        # Verify final lengths
+        final_lengths = {k: len(v) for k, v in existing_data.items()}
+        print(f"Final lengths of all columns: {final_lengths}")  # Debug print
+        if len(set(final_lengths.values())) > 1:
+            raise ValueError(f"Column length mismatch after merging: {final_lengths}")
+    except Exception as e:
+        print(f"Error occurred: {str(e)}")
+        # If loading fails, start fresh with just the new data
         existing_data = data
+    if debug_check_before_save(existing_data):
+        updated_dataset = Dataset.from_dict(existing_data)
+        updated_dataset.push_to_hub("HumbleBeeAI/al-ghazali-rag-retrieval-evaluation")
+    else:
+        raise ValueError("Length mismatch detected in final check")
 def update_reaction(model_type, idx):
     st.session_state.reactions[f"reaction_{model_type}_{idx}"] = st.session_state[f"reaction_{model_type}_{idx}"]