Spaces:

alethanhson
/

csm-1b-gradio

Sleeping

App Files Files Community

alethanhson commited on Mar 17

Commit

e0af3c6

1 Parent(s): 69a5801

fix

Browse files

Files changed (2) hide show

app_huggingface.py +78 -15
generator.py +5 -24

app_huggingface.py CHANGED Viewed

@@ -2,13 +2,39 @@ import base64
 import io
 import logging
 from typing import List
-import torch
-import torchaudio
-import gradio as gr
 import numpy as np
-from generator import load_csm_1b, Segment
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -19,17 +45,30 @@ def initialize_model():
     global generator
     logger.info("Loading CSM 1B model...")
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    if device == "cpu":
-        logger.warning("GPU not available. Using CPU, performance may be slow!")
-    logger.info(f"Using device: {device}")
     try:
-        generator = load_csm_1b(device=device)
-        logger.info(f"Model loaded successfully on device: {device}")
         return True
     except Exception as e:
-        logger.error(f"Could not load model: {str(e)}")
         return False
 def generate_speech(text, speaker_id, max_audio_length_ms=10000, temperature=0.9, topk=50, context_texts=None, context_speakers=None):
@@ -45,8 +84,13 @@ def generate_speech(text, speaker_id, max_audio_length_ms=10000, temperature=0.9
         if context_texts and context_speakers:
             for ctx_text, ctx_speaker in zip(context_texts, context_speakers):
                 if ctx_text and ctx_speaker is not None:
                     context_segments.append(
-                        Segment(text=ctx_text, speaker=int(ctx_speaker), audio=torch.zeros(0, dtype=torch.float32))
                     )
         # Generate audio from text
@@ -60,7 +104,11 @@ def generate_speech(text, speaker_id, max_audio_length_ms=10000, temperature=0.9
         )
         # Convert tensor to numpy array for Gradio
-        audio_numpy = audio.cpu().numpy()
         sample_rate = generator.sample_rate
         return (sample_rate, audio_numpy), None
@@ -91,6 +139,9 @@ def create_demo():
         gr.Markdown("# CSM 1B - Conversational Speech Model")
         gr.Markdown("Enter text to generate natural-sounding speech with the CSM 1B model")
         with gr.Row():
             with gr.Column(scale=2):
                 text_input = gr.Textbox(
@@ -203,6 +254,18 @@ def create_demo():
             inputs=[context_list, context_speakers_list],
             outputs=[context_display]
         )
     return demo
@@ -211,4 +274,4 @@ initialize_model()
 # Create and launch the demo
 demo = create_demo()
-demo.launch(server_name="0.0.0.0", server_port=7860)

 import io
 import logging
 from typing import List
+import os
+import sys
 import numpy as np
+import gradio as gr
+# Thêm class mô phỏng để giải quyết lỗi import
+class MockGenerator:
+    def __init__(self):
+        self.sample_rate = 24000
+        logging.info("Created mock generator with sample rate 24000")
+    def generate(self, text, speaker, context=None, max_audio_length_ms=10000, temperature=0.9, topk=50):
+        # Tạo âm thanh giả - chỉ là silence với độ dài tỷ lệ với text
+        duration_seconds = min(len(text) * 0.1, max_audio_length_ms / 1000)
+        samples = int(duration_seconds * self.sample_rate)
+        logging.info(f"Generating mock audio with {samples} samples")
+        return np.zeros(samples, dtype=np.float32)
+# Import thực tế chỉ khi cần
+try:
+    import torch
+    import torchaudio
+    from generator import load_csm_1b, Segment
+    TORCH_AVAILABLE = True
+except ImportError:
+    TORCH_AVAILABLE = False
+    # Tạo class Segment giả
+    class Segment:
+        def __init__(self, speaker, text, audio=None):
+            self.speaker = speaker
+            self.text = text
+            self.audio = audio if audio is not None else np.zeros(0, dtype=np.float32)
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
     global generator
     logger.info("Loading CSM 1B model...")
     try:
+        if not TORCH_AVAILABLE:
+            logger.warning("PyTorch is not available. Using mock generator.")
+            generator = MockGenerator()
+            return True
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        if device == "cpu":
+            logger.warning("GPU not available. Using CPU, performance may be slow!")
+        logger.info(f"Using device: {device}")
+        try:
+            # Try to use the actual model
+            generator = load_csm_1b(device=device)
+            logger.info(f"Model loaded successfully on device: {device}")
+        except Exception as e:
+            logger.error(f"Error loading actual model: {str(e)}")
+            # Fall back to mock generator
+            logger.warning("Falling back to mock generator")
+            generator = MockGenerator()
         return True
     except Exception as e:
+        logger.error(f"Could not initialize any generator: {str(e)}")
         return False
 def generate_speech(text, speaker_id, max_audio_length_ms=10000, temperature=0.9, topk=50, context_texts=None, context_speakers=None):
         if context_texts and context_speakers:
             for ctx_text, ctx_speaker in zip(context_texts, context_speakers):
                 if ctx_text and ctx_speaker is not None:
+                    if TORCH_AVAILABLE:
+                        audio_tensor = torch.zeros(0, dtype=torch.float32)
+                    else:
+                        audio_tensor = np.zeros(0, dtype=np.float32)
                     context_segments.append(
+                        Segment(text=ctx_text, speaker=int(ctx_speaker), audio=audio_tensor)
                     )
         # Generate audio from text
         )
         # Convert tensor to numpy array for Gradio
+        if TORCH_AVAILABLE and isinstance(audio, torch.Tensor):
+            audio_numpy = audio.cpu().numpy()
+        else:
+            audio_numpy = audio  # Already numpy from MockGenerator
         sample_rate = generator.sample_rate
         return (sample_rate, audio_numpy), None
         gr.Markdown("# CSM 1B - Conversational Speech Model")
         gr.Markdown("Enter text to generate natural-sounding speech with the CSM 1B model")
+        if not TORCH_AVAILABLE:
+            gr.Markdown("⚠️ **WARNING: PyTorch is not available. Using a mock generator that produces silent audio.**")
         with gr.Row():
             with gr.Column(scale=2):
                 text_input = gr.Textbox(
             inputs=[context_list, context_speakers_list],
             outputs=[context_display]
         )
+        gr.Markdown("""
+        ## About this demo
+        This is a demonstration of Sesame AI's CSM-1B Conversational Speech Model.
+        * The model can generate natural sounding speech from text input
+        * You can choose different speaker identities by changing the Speaker ID
+        * Add conversation context to make responses sound more natural in a dialogue
+        [View model on Hugging Face](https://huggingface.co/sesame/csm-1b)
+        """)
     return demo
 # Create and launch the demo
 demo = create_demo()
+demo.launch(server_name="0.0.0.0", server_port=7860, share=True)

generator.py CHANGED Viewed

@@ -163,28 +163,9 @@ class Generator:
         return audio
-# def load_csm_1b(device: str = "cuda") -> Generator:
-#     model = Model.from_pretrained("sesame/csm-1b")
-#     model.to(device=device, dtype=torch.bfloat16)
-#     generator = Generator(model)
-#     return generator
-def load_csm_1b(device="cuda"):
-    """
-    Load the CSM-1B model with proper configuration
-    """
-    from silentcipher import Config  # Import the proper Config class
-    # Create a default configuration or load it from the model
-    model_path = "sesame/csm-1b"
-    config = Config.from_pretrained(model_path)
-    # Pass the config to the Model constructor
-    model = Model.from_pretrained(model_path, config=config)
-    model = model.to(device)
-    # Rest of your loading code remains the same
-    # ...
-    return Generator(model, device=device)

         return audio
+def load_csm_1b(device: str = "cuda") -> Generator:
+    model = Model.from_pretrained("sesame/csm-1b")
+    model.to(device=device, dtype=torch.bfloat16)
+    generator = Generator(model)
+    return generator