Spaces:

lshzhm
/

DeepAudio-V1

Running

lshzhm commited on Mar 25

Commit

6a8113c

1 Parent(s): 4427b01

Update infer_cli_test.py

Files changed (1) hide show

F5-TTS/src/f5_tts/infer/infer_cli_test.py CHANGED Viewed

@@ -472,6 +472,7 @@ if __name__ == "__main__":
                 energy.append(waveform_v2a[0,int(i*sr_v2a*(256/24000)):int((i+1)*sr_v2a*(256/24000))].abs().mean())
             energy = np.array(energy)
             energy = energy / max(energy)
             waveform_p, sr_p = torchaudio.load(wav_p)
             duration_p = waveform_p.shape[-1] / sr_p
@@ -480,6 +481,7 @@ if __name__ == "__main__":
                 energy_p.append(waveform_p[0,int(i*sr_p*(256/24000)):int((i+1)*sr_p*(256/24000))].abs().mean())
             energy_p = np.array(energy_p)
             energy_p = energy_p / max(energy_p)
             #print("energy shape", energy_p.shape, energy.shape)
             #energy = torch.cat([energy_p, energy], dim=1)

                 energy.append(waveform_v2a[0,int(i*sr_v2a*(256/24000)):int((i+1)*sr_v2a*(256/24000))].abs().mean())
             energy = np.array(energy)
             energy = energy / max(energy)
+            energy = torch.from_numpy(energy).unsqueeze(0).unsqueeze(2)
             waveform_p, sr_p = torchaudio.load(wav_p)
             duration_p = waveform_p.shape[-1] / sr_p
                 energy_p.append(waveform_p[0,int(i*sr_p*(256/24000)):int((i+1)*sr_p*(256/24000))].abs().mean())
             energy_p = np.array(energy_p)
             energy_p = energy_p / max(energy_p)
+            energy_p = torch.from_numpy(energy_p).unsqueeze(0).unsqueeze(2)
             #print("energy shape", energy_p.shape, energy.shape)
             #energy = torch.cat([energy_p, energy], dim=1)