podcast-generator

Paused

App Files Files Community

bluenevus commited on 8 days ago

Commit

1428109

verified ·

1 Parent(s): a88e595

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -19

app.py CHANGED Viewed

@@ -140,6 +140,16 @@ def detect_silence(audio, threshold=0.01, min_silence_len=1000):
         silent_regions.append((silent_start, len(audio)))
     return silent_regions
 def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens):
     try:
         paragraphs = script_output.split('\n\n')  # Split by double newline
@@ -192,6 +202,9 @@ def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p,
             paragraph_audio = paragraph_audio.cpu().numpy().flatten()
             # Normalize audio to [-1, 1] range
             paragraph_audio = paragraph_audio / np.max(np.abs(paragraph_audio))
@@ -199,6 +212,9 @@ def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p,
         final_audio = np.concatenate(audio_samples)
         # Convert to 16-bit PCM
         final_audio = (final_audio * 32767).astype(np.int16)
@@ -207,6 +223,9 @@ def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p,
         sf.write(buffer, final_audio, 24000, format='WAV', subtype='PCM_16')
         buffer.seek(0)
         return buffer
     except Exception as e:
         logger.error(f"Error generating speech: {str(e)}")
@@ -323,27 +342,31 @@ def combined_callback(generate_script_clicks, generate_audio_clicks, advanced_se
             logger.error(f"Error generating podcast script: {str(e)}")
             return f"Error: {str(e)}", dash.no_update, dash.no_update, dash.no_update, "", ""
-    elif trigger_id == "generate-audio-btn":
-        if not script_output.strip():
-            return dash.no_update, html.Div("No audio generated yet."), dash.no_update, dash.no_update, "", ""
-        audio_buffer = generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens)
-        if audio_buffer is not None:
-            # Convert to base64 for audio playback
-            audio_base64 = base64.b64encode(audio_buffer.getvalue()).decode('utf-8')
-            src = f"data:audio/wav;base64,{audio_base64}"
-            # Create a download link for the audio
-            download_link = html.A("Download Audio", href=src, download="generated_audio.wav")
-            return dash.no_update, html.Div([
-                html.Audio(src=src, controls=True),
-                html.Br(),
-                download_link
-            ]), dash.no_update, dash.no_update, "", ""
-        else:
-            return dash.no_update, html.Div("Error generating audio"), dash.no_update, dash.no_update, "", ""
     elif trigger_id == "advanced-settings-toggle":
         return dash.no_update, dash.no_update, not is_advanced_open, dash.no_update, "", ""

         silent_regions.append((silent_start, len(audio)))
     return silent_regions
+import logging
+import numpy as np
+import torch
+import soundfile as sf
+import io
+from tqdm import tqdm
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 def generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens):
     try:
         paragraphs = script_output.split('\n\n')  # Split by double newline
             paragraph_audio = paragraph_audio.cpu().numpy().flatten()
+            # Log audio statistics
+            logger.info(f"Paragraph {i+1} audio shape: {paragraph_audio.shape}, min: {np.min(paragraph_audio)}, max: {np.max(paragraph_audio)}")
             # Normalize audio to [-1, 1] range
             paragraph_audio = paragraph_audio / np.max(np.abs(paragraph_audio))
         final_audio = np.concatenate(audio_samples)
+        # Log final audio statistics
+        logger.info(f"Final audio shape: {final_audio.shape}, min: {np.min(final_audio)}, max: {np.max(final_audio)}")
         # Convert to 16-bit PCM
         final_audio = (final_audio * 32767).astype(np.int16)
         sf.write(buffer, final_audio, 24000, format='WAV', subtype='PCM_16')
         buffer.seek(0)
+        # Log buffer size
+        logger.info(f"Audio buffer size: {buffer.getbuffer().nbytes} bytes")
         return buffer
     except Exception as e:
         logger.error(f"Error generating speech: {str(e)}")
             logger.error(f"Error generating podcast script: {str(e)}")
             return f"Error: {str(e)}", dash.no_update, dash.no_update, dash.no_update, "", ""
+elif trigger_id == "generate-audio-btn":
+    if not script_output.strip():
+        return dash.no_update, html.Div("No audio generated yet."), dash.no_update, dash.no_update, "", ""
+    audio_buffer = generate_audio(script_output, voice1, voice2, num_hosts, temperature, top_p, repetition_penalty, max_new_tokens)
+    if audio_buffer is not None:
+        # Convert to base64 for audio playback
+        audio_base64 = base64.b64encode(audio_buffer.getvalue()).decode('utf-8')
+        src = f"data:audio/wav;base64,{audio_base64}"
+        # Log audio file size
+        logger.info(f"Generated audio file size: {len(audio_base64)} bytes")
+        # Create a download link for the audio
+        download_link = html.A("Download Audio", href=src, download="generated_audio.wav")
+        return dash.no_update, html.Div([
+            html.Audio(src=src, controls=True),
+            html.Br(),
+            download_link
+        ]), dash.no_update, dash.no_update, "", ""
+    else:
+        logger.error("Failed to generate audio")
+        return dash.no_update, html.Div("Error generating audio"), dash.no_update, dash.no_update, "", ""
     elif trigger_id == "advanced-settings-toggle":
         return dash.no_update, dash.no_update, not is_advanced_open, dash.no_update, "", ""