podcast-generator

Paused

App Files Files Community

bluenevus commited on 19 days ago

Commit

841bbb9

verified ·

1 Parent(s): d9cc1e0

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -3

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ import google.generativeai as genai
 import re
 import logging
 import numpy as np
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -133,6 +135,7 @@ def redistribute_codes(code_list, snac_model):
     audio_hat = snac_model.decode(codes)
     return audio_hat.detach().squeeze().cpu().numpy()  # Always return CPU numpy array
 @spaces.GPU()
 @spaces.GPU()
 def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty, max_new_tokens, num_hosts, progress=gr.Progress()):
@@ -140,6 +143,9 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
         return None
     try:
         progress(0.1, "Processing text...")
         lines = text.split('\n')
         audio_samples = []
@@ -179,12 +185,26 @@ def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty
         # Concatenate all audio samples
         final_audio = np.concatenate(audio_samples)
         # Add a check for 15-second limitation
         max_samples = 24000 * 15  # 15 seconds at 24kHz sample rate
-        if len(final_audio) > max_samples:
-            final_audio = final_audio[:max_samples]
-        return (24000, final_audio)
     except Exception as e:
         print(f"Error generating speech: {e}")
         return None

 import re
 import logging
 import numpy as np
+from pydub import AudioSegment
+import io
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
     audio_hat = snac_model.decode(codes)
     return audio_hat.detach().squeeze().cpu().numpy()  # Always return CPU numpy array
+@spaces.GPU()
 @spaces.GPU()
 @spaces.GPU()
 def generate_speech(text, voice1, voice2, temperature, top_p, repetition_penalty, max_new_tokens, num_hosts, progress=gr.Progress()):
         return None
     try:
+        # Load the intro/outro music
+        music = AudioSegment.from_mp3("Maiko-intro-outro.mp3")
         progress(0.1, "Processing text...")
         lines = text.split('\n')
         audio_samples = []
         # Concatenate all audio samples
         final_audio = np.concatenate(audio_samples)
+        # Convert numpy array to AudioSegment
+        speech_audio = AudioSegment(
+            final_audio.tobytes(),
+            frame_rate=24000,
+            sample_width=final_audio.dtype.itemsize,
+            channels=1
+        )
+        # Combine intro, speech, and outro
+        combined_audio = music + speech_audio + music
+        # Convert back to numpy array
+        combined_numpy = np.array(combined_audio.get_array_of_samples())
         # Add a check for 15-second limitation
         max_samples = 24000 * 15  # 15 seconds at 24kHz sample rate
+        if len(combined_numpy) > max_samples:
+            combined_numpy = combined_numpy[:max_samples]
+        return (24000, combined_numpy)
     except Exception as e:
         print(f"Error generating speech: {e}")
         return None