Spaces:

preston-cell
/

image-text-to-text

Sleeping

preston-cell commited on Apr 11

Commit

dbabbd4

verified ·

1 Parent(s): 6a2189c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,9 +49,16 @@ doge_generation_config = GenerationConfig(
 # Load and pad/truncate speaker embedding to exactly 600 dimensions
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-vec = embeddings_dataset[0]["xvector"]
-vec = vec[:600] if len(vec) >= 600 else vec + [0.0] * (600 - len(vec))
-speaker_embedding = torch.tensor(vec, dtype=torch.float32).unsqueeze(0)
 def process_image(image):
     try:

 # Load and pad/truncate speaker embedding to exactly 600 dimensions
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+raw_vec = embeddings_dataset[0]["xvector"]
+# Force embedding to 600 dimensions
+if len(raw_vec) > 600:
+    raw_vec = raw_vec[:600]
+elif len(raw_vec) < 600:
+    raw_vec = raw_vec + [0.0] * (600 - len(raw_vec))
+speaker_embedding = torch.tensor(raw_vec, dtype=torch.float32).unsqueeze(0)  # shape [1, 600]
+assert speaker_embedding.shape == (1, 600), f"Speaker embedding shape is {speaker_embedding.shape}, expected (1, 600)"
 def process_image(image):
     try: