Spaces:

jytole
/

hftesting

Runtime error

App Files Files Community

jytole commited on Jun 29, 2023

Commit

e8233e7

1 Parent(s): ca5e437

Added multi-waveform generation option

Browse files

Files changed (1) hide show

app.py +20 -2

app.py CHANGED Viewed

@@ -9,13 +9,16 @@ pipe = AudioLDMPipeline.from_pretrained(repo_id, torch_dtype=torch.float32)
 #pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
 pipe = pipe.to("cpu")
 generator = torch.Generator("cpu")
 def texttoaudio(prompt, neg_prompt, seed, inf_steps, guidance_scale):
     if prompt is None:
         raise gr.Error("Please provide a text input.")
-    audio = pipe(
                  prompt,
                  negative_prompt=neg_prompt,
                  num_inference_steps=int(inf_steps),
@@ -26,7 +29,22 @@ def texttoaudio(prompt, neg_prompt, seed, inf_steps, guidance_scale):
     # save the audio sample as a .wav file
     # scipy.io.wavfile.write("output.wav", rate=16000, data=audio)
-    return (16000, audio[0])
 iface = gr.Interface(fn=texttoaudio, title="Prompt, Neg Prompt, Seed, Inf Steps, Guidance Scale", inputs=["text", "text", "number", "number", "number"], outputs="audio")

 #pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
 pipe = pipe.to("cpu")
+clap_model = ClapModel.from_pretrained("sanchit-gandhi/clap-htsat-unfused-m-full").to(device)
+processor = AutoProcessor.from_pretrained("sanchit-gandhi/clap-htsat-unfused-m-full")
 generator = torch.Generator("cpu")
 def texttoaudio(prompt, neg_prompt, seed, inf_steps, guidance_scale):
     if prompt is None:
         raise gr.Error("Please provide a text input.")
+    waveforms = pipe(
                  prompt,
                  negative_prompt=neg_prompt,
                  num_inference_steps=int(inf_steps),
     # save the audio sample as a .wav file
     # scipy.io.wavfile.write("output.wav", rate=16000, data=audio)
+    if waveforms.shape[0] > 1:
+        waveform = score_waveforms(text, waveforms)
+    else:
+        waveform = waveforms[0]
+    return (16000, waveform)
+def score_waveforms(text, waveforms):
+    inputs = processor(text=text, audios=list(waveforms), return_tensors="pt", padding=True)
+    inputs = {key: inputs[key].to(device) for key in inputs}
+    with torch.no_grad():
+        logits_per_text = clap_model(**inputs).logits_per_text  # this is the audio-text similarity score
+        probs = logits_per_text.softmax(dim=-1)  # we can take the softmax to get the label probabilities
+        most_probable = torch.argmax(probs)  # and now select the most likely audio waveform
+    waveform = waveforms[most_probable]
+    return waveform
 iface = gr.Interface(fn=texttoaudio, title="Prompt, Neg Prompt, Seed, Inf Steps, Guidance Scale", inputs=["text", "text", "number", "number", "number"], outputs="audio")