Spaces:

preston-cell
/

image-text-to-text

Running

preston-cell commited on Apr 11

Commit

1154d5a

verified ·

1 Parent(s): 8c3caa4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -47,9 +47,9 @@ doge_generation_config = GenerationConfig(
     repetition_penalty=1.0
 )
-# Load speaker embedding for SpeechT5
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
 def process_image(image):
@@ -113,4 +113,4 @@ iface = gr.Interface(
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )
-iface.launch()

     repetition_penalty=1.0
 )
+# Load and trim speaker embedding for SpeechT5 (must be size 600)
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)[:, :600]
 def process_image(image):
     description="Upload an image to generate a caption, extract text (OCR), generate context using Doge, and turn it into speech using SpeechT5."
 )
+iface.launch()