Spaces:

preston-cell
/

image-text-to-text

Sleeping

preston-cell commited on Apr 11

Commit

6a2189c

verified ·

1 Parent(s): 5a2766f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,17 +47,11 @@ doge_generation_config = GenerationConfig(
     repetition_penalty=1.0
 )
-# Load and normalize speaker embedding to 600 dimensions
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embedding = None
-for i in range(len(embeddings_dataset)):
-    vec = embeddings_dataset[i]["xvector"]
-    if len(vec) >= 600:
-        speaker_embedding = torch.tensor(vec[:600]).unsqueeze(0)
-        break
-if speaker_embedding is None:
-    raise ValueError("No suitable speaker embedding of at least 600 dimensions found.")
 def process_image(image):
     try:
@@ -116,7 +110,7 @@ iface = gr.Interface(
         gr.Textbox(label="Extracted Text (OCR)"),
         gr.Textbox(label="Generated Context")
     ],
-    title="SeeSay",
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )

     repetition_penalty=1.0
 )
+# Load and pad/truncate speaker embedding to exactly 600 dimensions
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+vec = embeddings_dataset[0]["xvector"]
+vec = vec[:600] if len(vec) >= 600 else vec + [0.0] * (600 - len(vec))
+speaker_embedding = torch.tensor(vec, dtype=torch.float32).unsqueeze(0)
 def process_image(image):
     try:
         gr.Textbox(label="Extracted Text (OCR)"),
         gr.Textbox(label="Generated Context")
     ],
+    title="SeeSay Contextualizer with Doge-320M",
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )