Spaces:

yakine
/

Dataset_Generator

Sleeping

yakine commited on Aug 10, 2024

Commit

c6ded12

verified ·

1 Parent(s): 65793c2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -83,25 +83,32 @@ def generate_synthetic_data(description, columns):
         # Load the Llama model only when generating data
         load_llama_model()
         formatted_prompt = format_prompt(description, columns)
-        payload = {"inputs": formatted_prompt, "parameters": generation_params}
-        headers = {"Authorization": f"Bearer {hf_token}"}
-        response = requests.post(API_URL, headers=headers, json=payload)
-        if response.status_code == 200:
-            response_json = response.json()
-            if isinstance(response_json, list) and len(response_json) > 0 and "generated_text" in response_json[0]:
-                return response_json[0]["generated_text"]
-            else:
-                raise ValueError("Unexpected response format or missing 'generated_text' key")
-        else:
-            print(f"Error details: {response.text}")
-            raise ValueError(f"API request failed with status code {response.status_code}: {response.text}")
     except Exception as e:
         print(f"Error in generate_synthetic_data: {e}")
         return f"Error: {e}"
 def generate_large_synthetic_data(description, columns, num_rows=1000, rows_per_generation=100):
     data_frames = []
     num_iterations = num_rows // rows_per_generation

         # Load the Llama model only when generating data
         load_llama_model()
+        # Prepare the input for the Llama model
         formatted_prompt = format_prompt(description, columns)
+        # Tokenize the prompt
+        inputs = tokenizer_llama(formatted_prompt, return_tensors="pt").to(model_llama.device)
+        # Generate synthetic data
+        with torch.no_grad():
+            outputs = model_llama.generate(
+                **inputs,
+                max_length=512,
+                top_p=generation_params["top_p"],
+                temperature=generation_params["temperature"],
+                num_return_sequences=1
+            )
+        # Decode the generated output
+        generated_text = tokenizer_llama.decode(outputs[0], skip_special_tokens=True)
+        # Return the generated synthetic data
+        return generated_text
     except Exception as e:
         print(f"Error in generate_synthetic_data: {e}")
         return f"Error: {e}"
 def generate_large_synthetic_data(description, columns, num_rows=1000, rows_per_generation=100):
     data_frames = []
     num_iterations = num_rows // rows_per_generation