podcast-generator

Paused

bluenevus commited on Apr 25

Commit

f4fb1c0

verified ·

1 Parent(s): 897a611

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ from pydub import AudioSegment
 from docx import Document
 import PyPDF2
 from tqdm import tqdm
 # Initialize logging
 logging.basicConfig(level=logging.INFO)
@@ -191,16 +192,22 @@ def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p,
             paragraph_audio = paragraph_audio.cpu().numpy().flatten()
-            silences = detect_silence(paragraph_audio)
-            if silences:
-                paragraph_audio = paragraph_audio[:silences[-1][1]]
             audio_samples.append(paragraph_audio)
         final_audio = np.concatenate(audio_samples)
-        final_audio = np.int16(final_audio / np.max(np.abs(final_audio)) * 32767)
-        return final_audio
     except Exception as e:
         logger.error(f"Error generating speech: {str(e)}")
         return None
@@ -320,11 +327,11 @@ def combined_callback(generate_script_clicks, generate_audio_clicks, advanced_se
         if not script_output.strip():
             return dash.no_update, html.Div("No audio generated yet."), dash.no_update, dash.no_update, "", ""
-        final_audio = generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens)
-        if final_audio is not None:
             # Convert to base64 for audio playback
-            audio_base64 = base64.b64encode(final_audio.tobytes()).decode('utf-8')
             src = f"data:audio/wav;base64,{audio_base64}"
             # Create a download link for the audio

 from docx import Document
 import PyPDF2
 from tqdm import tqdm
+import soundfile as sf
 # Initialize logging
 logging.basicConfig(level=logging.INFO)
             paragraph_audio = paragraph_audio.cpu().numpy().flatten()
+            # Normalize audio to [-1, 1] range
+            paragraph_audio = paragraph_audio / np.max(np.abs(paragraph_audio))
             audio_samples.append(paragraph_audio)
         final_audio = np.concatenate(audio_samples)
+        # Convert to 16-bit PCM
+        final_audio = (final_audio * 32767).astype(np.int16)
+        # Save as WAV file in memory
+        buffer = io.BytesIO()
+        sf.write(buffer, final_audio, 24000, format='WAV', subtype='PCM_16')
+        buffer.seek(0)
+        return buffer
     except Exception as e:
         logger.error(f"Error generating speech: {str(e)}")
         return None
         if not script_output.strip():
             return dash.no_update, html.Div("No audio generated yet."), dash.no_update, dash.no_update, "", ""
+        audio_buffer = generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens)
+        if audio_buffer is not None:
             # Convert to base64 for audio playback
+            audio_base64 = base64.b64encode(audio_buffer.getvalue()).decode('utf-8')
             src = f"data:audio/wav;base64,{audio_base64}"
             # Create a download link for the audio