Spaces:

Bils
/

AIPromoStudio

Running on Zero

App Files Files Community

Bils commited on Jan 30

Commit

8d064dc

verified ·

1 Parent(s): 7b531cd

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -102

app.py CHANGED Viewed

@@ -45,10 +45,10 @@ class ModelManager:
     def get_llama_pipeline(self, model_id, token):
         if model_id not in self.llama_pipelines:
-            tokenizer = AutoTokenizer.from_pretrained(model_id, token=token)
             model = AutoModelForCausalLM.from_pretrained(
                 model_id,
-                token=token,
                 torch_dtype=torch.float16,
                 device_map="auto",
                 attn_implementation="flash_attention_2"
@@ -85,20 +85,17 @@ def generate_script(user_prompt, model_id, duration, temperature=0.7, max_tokens
     try:
         text_pipeline = model_manager.get_llama_pipeline(model_id, HF_TOKEN)
-        system_prompt = f"""You are an AI audio production assistant. Create content for a {duration}-second promo:
-1. Voice Script: [Clear, engaging narration]
-2. Sound Design: [3-5 specific sound effects]
-3. Music: [Genre, tempo, mood suggestions]
-Keep sections concise and production-ready."""
-        messages = [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt}
-        ]
         response = text_pipeline(
-            messages,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
@@ -106,8 +103,7 @@ Keep sections concise and production-ready."""
             eos_token_id=text_pipeline.tokenizer.eos_token_id
         )
-        return parse_generated_content(response[0]['generated_text'][-1]['content'])
     except Exception as e:
         return f"Error: {str(e)}", "", ""
@@ -140,10 +136,10 @@ def parse_generated_content(text):
 def generate_voice(script, tts_model, speed=1.0):
     try:
         if not script.strip():
-            raise ValueError("Empty script")
         tts = model_manager.get_tts_model(tts_model)
-        output_path = os.path.join(tempfile.gettempdir(), "enhanced_voice.wav")
         tts.tts_to_file(
             text=script,
@@ -174,8 +170,8 @@ def generate_music(prompt, duration_sec=30, temperature=1.0, guidance_scale=3.0)
             do_sample=True
         )
-        output_path = os.path.join(tempfile.gettempdir(), "enhanced_music.wav")
-        write(output_path, 32000, audio_values[0, 0].cpu().numpy())
         return output_path
     except Exception as e:
         return f"Error: {str(e)}"
@@ -185,19 +181,22 @@ def blend_audio(voice_path, music_path, ducking=True, duck_level=10, crossfade=5
         voice = AudioSegment.from_wav(voice_path)
         music = AudioSegment.from_wav(music_path)
         if len(music) < len(voice):
             loops = (len(voice) // len(music)) + 1
             music = music * loops
         music = music[:len(voice)].fade_out(crossfade)
         if ducking:
             ducked_music = music - duck_level
-            mixed = ducked_music.overlay(voice.fade_in(crossfade))
         else:
             mixed = music.overlay(voice)
-        output_path = os.path.join(tempfile.gettempdir(), "enhanced_mix.wav")
         mixed.export(output_path, format="wav")
         return output_path
     except Exception as e:
@@ -214,124 +213,119 @@ theme = gr.themes.Soft(
     background_fill_primary_dark='#1F1F1F'
 )
-with gr.Blocks(theme=theme, title="AI Audio Studio Pro") as demo:
     gr.Markdown("""
-    # 🎙️ AI Audio Studio Pro
-    *Next-generation audio production powered by AI*
     """)
     with gr.Tabs():
-        with gr.Tab("🎯 Concept Development"):
             with gr.Row():
                 with gr.Column(scale=2):
                     concept_input = gr.Textbox(
-                        label="Your Concept",
-                        placeholder="Describe your audio project...",
-                        lines=3,
-                        max_lines=6
                     )
                     with gr.Accordion("Advanced Settings", open=False):
-                        with gr.Row():
-                            model_selector = gr.Dropdown(
-                                choices=list(MODEL_CONFIG["llama_models"].values()),
-                                label="AI Model",
-                                value=MODEL_CONFIG["llama_models"]["Meta-Llama-3-8B"]
-                            )
-                            duration_slider = gr.Slider(15, 120, value=30, step=15, label="Duration (seconds)")
-                        with gr.Row():
-                            temp_slider = gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Creativity")
-                            token_slider = gr.Slider(128, 1024, value=512, step=128, label="Max Length")
-                    generate_btn = gr.Button("✨ Generate Concept", variant="primary")
                 with gr.Column(scale=1):
                     script_output = gr.Textbox(label="Voice Script", interactive=True)
                     sound_output = gr.Textbox(label="Sound Design", interactive=True)
-                    music_output = gr.Textbox(label="Music Suggestions", interactive=True)
-            generate_btn.click(
-                generate_script,
-                inputs=[concept_input, model_selector, duration_slider, temp_slider, token_slider],
-                outputs=[script_output, sound_output, music_output]
-            )
-        with gr.Tab("🗣️ Voice Production"):
             with gr.Row():
                 with gr.Column():
-                    tts_model = gr.Dropdown(
                         choices=list(MODEL_CONFIG["tts_models"].values()),
                         label="Voice Model",
-                        value=MODEL_CONFIG["tts_models"]["Standard English"]
                     )
-                    speed_slider = gr.Slider(0.5, 2.0, value=1.0, step=0.1, label="Speaking Rate")
-                    voice_btn = gr.Button("🎙️ Generate Voiceover", variant="primary")
                 with gr.Column():
-                    voice_preview = gr.Audio(label="Preview", interactive=False)
-                    voice_btn.click(
-                        generate_voice,
-                        inputs=[script_output, tts_model, speed_slider],
-                        outputs=voice_preview
-                    )
-        with gr.Tab("🎶 Music Production"):
             with gr.Row():
                 with gr.Column():
-                    with gr.Accordion("Music Parameters", open=True):
-                        music_duration = gr.Slider(10, 120, value=30, label="Duration (seconds)")
-                        music_temp = gr.Slider(0.1, 2.0, value=1.0, label="Creativity")
-                        guidance_scale = gr.Slider(1.0, 5.0, value=3.0, label="Focus")
-                    music_btn = gr.Button("🎵 Generate Music", variant="primary")
                 with gr.Column():
-                    music_preview = gr.Audio(label="Preview", interactive=False)
-                    music_btn.click(
-                        generate_music,
-                        inputs=[music_output, music_duration, music_temp, guidance_scale],
-                        outputs=music_preview
-                    )
-        with gr.Tab("🔊 Final Mix"):
             with gr.Row():
                 with gr.Column():
-                    ducking_toggle = gr.Checkbox(value=True, label="Enable Voice Ducking")
-                    duck_level = gr.Slider(0, 30, value=12, label="Ducking Strength (dB)")
-                    crossfade_time = gr.Slider(0, 2000, value=500, label="Crossfade (ms)")
-                    mix_btn = gr.Button("🚀 Create Final Mix", variant="primary")
                 with gr.Column():
-                    final_mix = gr.Audio(label="Master Output", interactive=False)
-                    mix_btn.click(
-                        blend_audio,
-                        inputs=[voice_preview, music_preview, ducking_toggle, duck_level, crossfade_time],
-                        outputs=final_mix
-                    )
-    with gr.Accordion("📚 Example Prompts", open=False):
         gr.Examples(
             examples=[
-                ["A 30-second tech podcast intro with futuristic sounds"],
-                ["A 15-second radio ad for a coffee shop with morning vibes"],
                 ["A 60-second documentary trailer with epic orchestral music"]
             ],
             inputs=concept_input
         )
-    with gr.Row():
-        gr.Markdown("### System Resources")
-        gpu_status = gr.Textbox(label="GPU Utilization", interactive=False)
-        ram_status = gr.Textbox(label="RAM Usage", interactive=False)
-    # Custom Footer
     gr.Markdown("""
-    <hr>
-    <p style="text-align: center; font-size: 0.9em;">
-        Created with ❤️ by <a href="https://bilsimaging.com" target="_blank">bilsimaging.com</a>
-    </p>
     """)
-    gr.HTML("""
-    <a href="https://visitorbadge.io/status?path=https%3A%2F%2Fhuggingface.co%2Fspaces%2FBils%2Fradiogold">
-        <img src="https://api.visitorbadge.io/api/visitors?path=https%3A%2F%2Fhuggingface.co%2Fspaces%2FBils%2Fradiogold&countColor=%23263759" />
-    </a>
-    """)
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)

     def get_llama_pipeline(self, model_id, token):
         if model_id not in self.llama_pipelines:
+            tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=token)
             model = AutoModelForCausalLM.from_pretrained(
                 model_id,
+                use_auth_token=token,
                 torch_dtype=torch.float16,
                 device_map="auto",
                 attn_implementation="flash_attention_2"
     try:
         text_pipeline = model_manager.get_llama_pipeline(model_id, HF_TOKEN)
+        system_prompt = f"""You are an expert radio imaging producer. Create content for a {duration}-second promo:
+1. Voice Script: [Clear narration]
+2. Sound Design: [3-5 effects]
+3. Music: [Genre/tempo/mood]
+Respond in this exact format:"""
+        prompt = f"{system_prompt}\nConcept: {user_prompt}\nVoice Script:"
         response = text_pipeline(
+            prompt,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
             eos_token_id=text_pipeline.tokenizer.eos_token_id
         )
+        return parse_generated_content(response[0]["generated_text"])
     except Exception as e:
         return f"Error: {str(e)}", "", ""
 def generate_voice(script, tts_model, speed=1.0):
     try:
         if not script.strip():
+            return "Error: Empty script"
         tts = model_manager.get_tts_model(tts_model)
+        output_path = os.path.join(tempfile.gettempdir(), "voice.wav")
         tts.tts_to_file(
             text=script,
             do_sample=True
         )
+        output_path = os.path.join(tempfile.gettempdir(), "music.wav")
+        write(output_path, 44100, audio_values[0, 0].cpu().numpy())
         return output_path
     except Exception as e:
         return f"Error: {str(e)}"
         voice = AudioSegment.from_wav(voice_path)
         music = AudioSegment.from_wav(music_path)
+        # Align durations with crossfade
         if len(music) < len(voice):
             loops = (len(voice) // len(music)) + 1
             music = music * loops
         music = music[:len(voice)].fade_out(crossfade)
+        voice = voice.fade_in(crossfade)
+        # Apply ducking
         if ducking:
             ducked_music = music - duck_level
+            mixed = ducked_music.overlay(voice)
         else:
             mixed = music.overlay(voice)
+        output_path = os.path.join(tempfile.gettempdir(), "final_mix.wav")
         mixed.export(output_path, format="wav")
         return output_path
     except Exception as e:
     background_fill_primary_dark='#1F1F1F'
 )
+with gr.Blocks(theme=theme, title="AI Radio Studio Pro") as demo:
     gr.Markdown("""
+    # 🎧 AI Radio Studio Pro
+    *Professional Audio Production in 4 Steps*
     """)
     with gr.Tabs():
+        # Step 1: Concept Development
+        with gr.Tab("1️⃣ Concept"):
             with gr.Row():
                 with gr.Column(scale=2):
                     concept_input = gr.Textbox(
+                        label="Your Idea",
+                        placeholder="e.g., A 30-second morning show intro with energetic music...",
+                        lines=3
                     )
                     with gr.Accordion("Advanced Settings", open=False):
+                        model_selector = gr.Dropdown(
+                            choices=list(MODEL_CONFIG["llama_models"].values()),
+                            label="AI Model",
+                            value=MODEL_CONFIG["llama_models"]["Meta-Llama-3-8B"]
+                        )
+                        duration_slider = gr.Slider(15, 120, 30, step=15, label="Duration (seconds)")
+                        temp_slider = gr.Slider(0.1, 1.5, 0.7, step=0.1, label="Creativity")
+                    generate_btn = gr.Button("Generate Script", variant="primary")
                 with gr.Column(scale=1):
                     script_output = gr.Textbox(label="Voice Script", interactive=True)
                     sound_output = gr.Textbox(label="Sound Design", interactive=True)
+                    music_output = gr.Textbox(label="Music Style", interactive=True)
+        # Step 2: Voice Production
+        with gr.Tab("2️⃣ Voice"):
             with gr.Row():
                 with gr.Column():
+                    tts_selector = gr.Dropdown(
                         choices=list(MODEL_CONFIG["tts_models"].values()),
                         label="Voice Model",
+                        value="tts_models/en/ljspeech/tacotron2-DDC"
                     )
+                    speed_slider = gr.Slider(0.5, 2.0, 1.0, step=0.1, label="Speaking Rate")
+                    voice_btn = gr.Button("Generate Voiceover", variant="primary")
                 with gr.Column():
+                    voice_preview = gr.Audio(label="Preview", type="filepath")
+        # Step 3: Music Production
+        with gr.Tab("3️⃣ Music"):
             with gr.Row():
                 with gr.Column():
+                    music_duration = gr.Slider(10, 120, 30, label="Duration (seconds)")
+                    music_temp = gr.Slider(0.1, 2.0, 1.0, label="Creativity")
+                    guidance_scale = gr.Slider(1.0, 5.0, 3.0, label="Focus")
+                    music_btn = gr.Button("Generate Music", variant="primary")
                 with gr.Column():
+                    music_preview = gr.Audio(label="Preview", type="filepath")
+        # Step 4: Final Mix
+        with gr.Tab("4️⃣ Mix"):
             with gr.Row():
                 with gr.Column():
+                    ducking_toggle = gr.Checkbox(True, label="Enable Voice Ducking")
+                    duck_level = gr.Slider(0, 30, 12, label="Ducking Strength (dB)")
+                    crossfade_time = gr.Slider(0, 2000, 500, label="Crossfade (ms)")
+                    mix_btn = gr.Button("Create Final Mix", variant="primary")
                 with gr.Column():
+                    final_mix = gr.Audio(label="Master Output", type="filepath")
+    # Examples & Footer
+    with gr.Accordion("💡 Example Prompts", open=False):
         gr.Examples(
             examples=[
+                ["A 45-second tech podcast intro with futuristic synth effects"],
+                ["A 15-second coffee shop radio ad with morning acoustic vibes"],
                 ["A 60-second documentary trailer with epic orchestral music"]
             ],
             inputs=concept_input
         )
     gr.Markdown("""
+    <div style="text-align: center; margin-top: 30px; padding-top: 20px; border-top: 1px solid #444;">
+        <p style="font-size: 0.9em; color: #888;">
+            Created with ❤️ by <a href="https://bilsimaging.com" target="_blank" style="color: #66b3ff;">bilsimaging.com</a>
+        </p>
+        <a href="https://visitorbadge.io/status?path=https%3A%2F%2Fhuggingface.co%2Fspaces%2FBils%2Fradiogold">
+            <img src="https://api.visitorbadge.io/api/visitors?path=https%3A%2F%2Fhuggingface.co%2Fspaces%2FBils%2Fradiogold&countColor=%23263759"/>
+        </a>
+    </div>
     """)
+    # Event Handling
+    generate_btn.click(
+        generate_script,
+        inputs=[concept_input, model_selector, duration_slider, temp_slider],
+        outputs=[script_output, sound_output, music_output]
+    )
+    voice_btn.click(
+        generate_voice,
+        inputs=[script_output, tts_selector, speed_slider],
+        outputs=voice_preview
+    )
+    music_btn.click(
+        generate_music,
+        inputs=[music_output, music_duration, music_temp, guidance_scale],
+        outputs=music_preview
+    )
+    mix_btn.click(
+        blend_audio,
+        inputs=[voice_preview, music_preview, ducking_toggle, duck_level, crossfade_time],
+        outputs=final_mix
+    )
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)