Spaces:

atharvasc27112001
/

Capstone_Project

Sleeping

App Files Files Community

atharvasc27112001 commited on Apr 6

Commit

3180216

verified ·

1 Parent(s): 87ac0d2

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -21

app.py CHANGED Viewed

@@ -1,20 +1,3 @@
-import sys
-import subprocess
-def upgrade_packages():
-    try:
-        print("Upgrading transformers and accelerate...")
-        subprocess.check_call([
-            sys.executable, "-m", "pip", "install", "--upgrade",
-            "transformers>=4.31.0", "accelerate>=0.20.0"
-        ])
-        print("Upgrade complete.")
-    except Exception as e:
-        print("Error upgrading packages:", e)
-# Uncomment the next line if you want to force an upgrade locally (not recommended on Spaces)
-# upgrade_packages()
 import torch
 from transformers import CLIPProcessor, CLIPModel, WhisperProcessor, WhisperForConditionalGeneration, AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
@@ -40,7 +23,7 @@ text_model = AutoModelForCausalLM.from_pretrained("gpt2")
 # Define Projection Layers
 # ------------------------------
 print("Initializing image projection layer...")
-# This layer projects CLIP's 512-dimensional image embeddings to GPT-2's 768-dimensional space.
 image_projection = torch.nn.Linear(512, 768)
 # ------------------------------
@@ -96,11 +79,18 @@ def multimodal_inference(text_input, image_input, audio_input):
     print("Final fused prompt:", prompt)
-    # Generate text response using the text model
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
-        outputs = text_model.generate(**inputs, max_length=200)
-    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return generated_text

 import torch
 from transformers import CLIPProcessor, CLIPModel, WhisperProcessor, WhisperForConditionalGeneration, AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
 # Define Projection Layers
 # ------------------------------
 print("Initializing image projection layer...")
+# Project CLIP's 512-dimensional image embeddings to GPT-2's 768-dimensional space.
 image_projection = torch.nn.Linear(512, 768)
 # ------------------------------
     print("Final fused prompt:", prompt)
+    # Generate text response using the text model with advanced decoding parameters
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
+        generated_ids = text_model.generate(
+            **inputs,
+            max_length=200,
+            temperature=0.7,       # Controls randomness (0=deterministic, 1=more random)
+            top_p=0.9,             # Limits sampling to the top 90% probability mass
+            repetition_penalty=1.2,# Penalizes repeated phrases
+            do_sample=True         # Enables sampling (instead of greedy decoding)
+        )
+    generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
     return generated_text