podcast-generator

Paused

App Files Files Community

bluenevus commited on 20 days ago

Commit

2cf25ca

verified ·

1 Parent(s): 624da7b

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -63

app.py CHANGED Viewed

@@ -4,8 +4,6 @@ import torch
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from huggingface_hub import snapshot_download
-import google.generativeai as genai
-import re
 import logging
 logging.basicConfig(level=logging.INFO)
@@ -24,39 +22,11 @@ model.to(device)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 print(f"Orpheus model loaded to {device}")
-@spaces.GPU()
-def generate_podcast_script(api_key, content, uploaded_file, duration, num_hosts):
-    try:
-        genai.configure(api_key=api_key)
-        model = genai.GenerativeModel('gemini-2.5-pro-preview-03-25')
-        combined_content = content or ""
-        if uploaded_file:
-            file_content = uploaded_file.read().decode('utf-8')
-            combined_content += "\n" + file_content if combined_content else file_content
-        prompt = f"""
-        Create a podcast script for {'one person' if num_hosts == 1 else 'two people'} discussing:
-        {combined_content}
-        Duration: {duration} minutes. Include natural speech, humor, and occasional off-topic thoughts.
-        Use speech fillers like um, ah. Vary emotional tone.
-        Format: {'Monologue' if num_hosts == 1 else 'Alternating dialogue'} without speaker labels.
-        Separate {'paragraphs' if num_hosts == 1 else 'lines'} with blank lines.
-        Use emotion tags in angle brackets: <laugh>, <sigh>, <chuckle>, <cough>, <sniffle>, <groan>, <yawn>, <gasp>.
-        Example: "I can't believe I stayed up all night <yawn> only to find out the meeting was canceled <groan>."
-        Ensure content flows naturally and stays on topic. Match the script length to {duration} minutes.
-        """
-        response = model.generate_content(prompt)
-        return re.sub(r'[^a-zA-Z0-9\s.,?!<>]', '', response.text)
-    except Exception as e:
-        logger.error(f"Error generating podcast script: {str(e)}")
-        raise
 def process_prompt(prompt, voice, tokenizer, device):
     prompt = f"{voice}: {prompt}"
@@ -97,6 +67,26 @@ def parse_output(generated_ids):
     return code_lists[0]
 @spaces.GPU()
 def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new_tokens, progress=gr.Progress()):
     if not text.strip():
@@ -132,51 +122,64 @@ def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new
         return None
 with gr.Blocks(title="Orpheus Text-to-Speech") as demo:
-    gr.Markdown("# 🎵 Orpheus Text-to-Speech with Gemini Script Generation")
     with gr.Row():
-        with gr.Column(scale=1):
-            gemini_api_key = gr.Textbox(label="Gemini API Key", type="password")
-            content = gr.Textbox(label="Content", lines=8)
-            uploaded_file = gr.File(label="Upload File")
-            duration = gr.Slider(minimum=1, maximum=60, value=5, step=1, label="Duration (minutes)")
-            num_hosts = gr.Radio(["1", "2"], label="Number of Hosts", value="1")
-            generate_script_btn = gr.Button("Generate Podcast Script")
         with gr.Column(scale=2):
-            script_output = gr.Textbox(label="Generated Script", lines=10)
-            voice = gr.Dropdown(choices=["Narrator", "Male", "Female"], value="Narrator", label="Voice")
-            with gr.Row():
-                temperature = gr.Slider(minimum=0.1, maximum=1.0, value=0.7, step=0.1, label="Temperature")
-                top_p = gr.Slider(minimum=0.1, maximum=1.0, value=0.9, step=0.1, label="Top P")
             with gr.Row():
-                repetition_penalty = gr.Slider(minimum=1.0, maximum=2.0, value=1.2, step=0.1, label="Repetition Penalty")
-                max_new_tokens = gr.Slider(minimum=100, maximum=1000, value=500, step=50, label="Max New Tokens")
-            submit_btn = gr.Button("Generate Speech")
-            clear_btn = gr.Button("Clear")
         with gr.Column(scale=2):
             audio_output = gr.Audio(label="Generated Speech", type="numpy")
-    generate_script_btn.click(
-        fn=generate_podcast_script,
-        inputs=[gemini_api_key, content, uploaded_file, duration, num_hosts],
-        outputs=script_output
-    )
     submit_btn.click(
         fn=generate_speech,
-        inputs=[script_output, voice, temperature, top_p, repetition_penalty, max_new_tokens],
         outputs=audio_output
     )
     clear_btn.click(
-        fn=lambda: (None, None, None),
         inputs=[],
-        outputs=[content, script_output, audio_output]
     )
 if __name__ == "__main__":

 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from huggingface_hub import snapshot_download
 import logging
 logging.basicConfig(level=logging.INFO)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 print(f"Orpheus model loaded to {device}")
+# Available voices
+VOICES = ["tara", "leah", "jess", "leo", "dan", "mia", "zac", "zoe"]
+# Available Emotive Tags
+EMOTIVE_TAGS = ["`<laugh>`", "`<chuckle>`", "`<sigh>`", "`<cough>`", "`<sniffle>`", "`<groan>`", "`<yawn>`", "`<gasp>`"]
 def process_prompt(prompt, voice, tokenizer, device):
     prompt = f"{voice}: {prompt}"
     return code_lists[0]
+def redistribute_codes(code_list, snac_model):
+    layer_1, layer_2, layer_3 = [], [], []
+    for i in range(len(code_list) // 7):
+        layer_1.append(code_list[7*i])
+        layer_2.append(code_list[7*i+1]-(1*4096))
+        layer_3.append(code_list[7*i+2]-(2*4096))
+        layer_3.append(code_list[7*i+3]-(3*4096))
+        layer_2.append(code_list[7*i+4]-(4*4096))
+        layer_3.append(code_list[7*i+5]-(5*4096))
+        layer_3.append(code_list[7*i+6]-(6*4096))
+    codes = [
+        torch.tensor(layer_1, device=device).unsqueeze(0),
+        torch.tensor(layer_2, device=device).unsqueeze(0),
+        torch.tensor(layer_3, device=device).unsqueeze(0)
+    ]
+    audio = snac_model.decode(codes)
+    return audio.cpu().numpy().flatten()
 @spaces.GPU()
 def generate_speech(text, voice, temperature, top_p, repetition_penalty, max_new_tokens, progress=gr.Progress()):
     if not text.strip():
         return None
 with gr.Blocks(title="Orpheus Text-to-Speech") as demo:
+    gr.Markdown(f"""
+    # 🎵 [Orpheus Text-to-Speech](https://github.com/canopyai/Orpheus-TTS)
+    Enter your text below and hear it converted to natural-sounding speech with the Orpheus TTS model.
+    ## Tips for better prompts:
+    - Add paralinguistic elements like {", ".join(EMOTIVE_TAGS)} or `uhm` for more human-like speech.
+    - Longer text prompts generally work better than very short phrases
+    """)
     with gr.Row():
         with gr.Column(scale=2):
+            text_input = gr.Textbox(label="Text to speak", lines=5)
+            voice = gr.Dropdown(
+                choices=VOICES,
+                value="tara",
+                label="Voice",
+                info="Select the voice for speech generation"
+            )
+            with gr.Accordion("Advanced Settings", open=False):
+                temperature = gr.Slider(
+                    minimum=0.1, maximum=1.5, value=0.6, step=0.05,
+                    label="Temperature",
+                    info="Higher values (0.7-1.0) create more expressive but less stable speech"
+                )
+                top_p = gr.Slider(
+                    minimum=0.1, maximum=1.0, value=0.9, step=0.05,
+                    label="Top P",
+                    info="Higher values produce more diverse outputs"
+                )
+                repetition_penalty = gr.Slider(
+                    minimum=1.0, maximum=2.0, value=1.2, step=0.1,
+                    label="Repetition Penalty",
+                    info="Higher values discourage repetitive patterns"
+                )
+                max_new_tokens = gr.Slider(
+                    minimum=100, maximum=2000, value=1200, step=100,
+                    label="Max Length",
+                    info="Maximum length of generated audio (in tokens)"
+                )
             with gr.Row():
+                submit_btn = gr.Button("Generate Speech", variant="primary")
+                clear_btn = gr.Button("Clear")
         with gr.Column(scale=2):
             audio_output = gr.Audio(label="Generated Speech", type="numpy")
     submit_btn.click(
         fn=generate_speech,
+        inputs=[text_input, voice, temperature, top_p, repetition_penalty, max_new_tokens],
         outputs=audio_output
     )
     clear_btn.click(
+        fn=lambda: (None, None),
         inputs=[],
+        outputs=[text_input, audio_output]
     )
 if __name__ == "__main__":