Spaces:

preston-cell
/

image-text-to-text

Running

preston-cell commited on Apr 11

Commit

5a2766f

verified ·

1 Parent(s): 84402c4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,10 +47,17 @@ doge_generation_config = GenerationConfig(
     repetition_penalty=1.0
 )
-# Load and trim speaker embedding for SpeechT5 (must be size 600)
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)[:, :600]
 def process_image(image):
     try:
@@ -109,7 +116,7 @@ iface = gr.Interface(
         gr.Textbox(label="Extracted Text (OCR)"),
         gr.Textbox(label="Generated Context")
     ],
-    title="SeeSay Contextualizer with Doge-320M",
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )

     repetition_penalty=1.0
 )
+# Load and normalize speaker embedding to 600 dimensions
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embedding = None
+for i in range(len(embeddings_dataset)):
+    vec = embeddings_dataset[i]["xvector"]
+    if len(vec) >= 600:
+        speaker_embedding = torch.tensor(vec[:600]).unsqueeze(0)
+        break
+if speaker_embedding is None:
+    raise ValueError("No suitable speaker embedding of at least 600 dimensions found.")
 def process_image(image):
     try:
         gr.Textbox(label="Extracted Text (OCR)"),
         gr.Textbox(label="Generated Context")
     ],
+    title="SeeSay",
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )