Spaces:

DroolingPanda
/

teachingAssistant

Running

App Files Files Community

Michael Hu commited on 27 days ago

Commit

2d176f4

1 Parent(s): 501f0b5

fix runtime dia model issue

Browse files

Files changed (2) hide show

utils/tts_dia.py +56 -33
utils/tts_dummy.py +23 -1

utils/tts_dia.py CHANGED Viewed

@@ -44,7 +44,11 @@ def _get_model() -> Dia:
             # Log model details
             logger.info(f"Dia model loaded successfully")
             logger.info(f"Model type: {type(_model).__name__}")
-            logger.info(f"Model device: {next(_model.parameters()).device}")
         except ImportError as import_err:
             logger.error(f"Import error loading Dia model: {import_err}")
             logger.error(f"This may indicate missing dependencies")
@@ -74,34 +78,42 @@ def generate_speech(text: str, language: str = "zh") -> str:
     logger.info(f"Generating speech for text length: {len(text)}")
     logger.info(f"Text content (first 50 chars): {text[:50]}...")
     try:
-        # Create output directory if it doesn't exist
-        output_dir = "temp/outputs"
-        logger.info(f"Ensuring output directory exists: {output_dir}")
-        try:
-            os.makedirs(output_dir, exist_ok=True)
-            logger.info(f"Output directory ready: {output_dir}")
-        except PermissionError as perm_err:
-            logger.error(f"Permission error creating output directory: {perm_err}")
-            raise
-        except Exception as dir_err:
-            logger.error(f"Error creating output directory: {dir_err}")
-            raise
-        # Generate unique output path
-        timestamp = int(time.time())
-        output_path = f"{output_dir}/output_{timestamp}.wav"
-        logger.info(f"Output will be saved to: {output_path}")
-        # Get the model
-        logger.info("Retrieving Dia model instance")
-        try:
-            model = _get_model()
-            logger.info("Successfully retrieved Dia model instance")
-        except Exception as model_err:
-            logger.error(f"Failed to get Dia model: {model_err}")
-            logger.error(f"Error type: {type(model_err).__name__}")
-            raise
         # Generate audio
         logger.info("Starting audio generation with Dia model")
@@ -125,11 +137,17 @@ def generate_speech(text: str, language: str = "zh") -> str:
             logger.error(f"Runtime error during generation: {rt_err}")
             if "CUDA out of memory" in str(rt_err):
                 logger.error("CUDA out of memory error - consider reducing batch size or model size")
-            raise
         except Exception as gen_err:
             logger.error(f"Error during audio generation: {gen_err}")
             logger.error(f"Error type: {type(gen_err).__name__}")
-            raise
         end_time = time.time()
         generation_time = end_time - start_time
@@ -164,7 +182,10 @@ def generate_speech(text: str, language: str = "zh") -> str:
             except Exception as save_err:
                 logger.error(f"Error saving audio file: {save_err}")
                 logger.error(f"Error type: {type(save_err).__name__}")
-                raise
             return output_path
         else:
@@ -194,5 +215,7 @@ def generate_speech(text: str, language: str = "zh") -> str:
         elif isinstance(e, FileNotFoundError):
             logger.error(f"File not found - check if model files exist and are accessible")
-        # Return dummy path in case of error
-        return "temp/outputs/dummy.wav"

             # Log model details
             logger.info(f"Dia model loaded successfully")
             logger.info(f"Model type: {type(_model).__name__}")
+            # Check if model has parameters method (PyTorch models do, but Dia might not)
+            if hasattr(_model, 'parameters'):
+                logger.info(f"Model device: {next(_model.parameters()).device}")
+            else:
+                logger.info("Model device: Device information not available for Dia model")
         except ImportError as import_err:
             logger.error(f"Import error loading Dia model: {import_err}")
             logger.error(f"This may indicate missing dependencies")
     logger.info(f"Generating speech for text length: {len(text)}")
     logger.info(f"Text content (first 50 chars): {text[:50]}...")
+    # Create output directory if it doesn't exist
+    output_dir = "temp/outputs"
+    logger.info(f"Ensuring output directory exists: {output_dir}")
     try:
+        os.makedirs(output_dir, exist_ok=True)
+        logger.info(f"Output directory ready: {output_dir}")
+    except PermissionError as perm_err:
+        logger.error(f"Permission error creating output directory: {perm_err}")
+        # Fall back to dummy TTS
+        logger.info("Falling back to dummy TTS due to directory creation error")
+        from utils.tts_dummy import generate_speech as dummy_generate_speech
+        return dummy_generate_speech(text, language)
+    except Exception as dir_err:
+        logger.error(f"Error creating output directory: {dir_err}")
+        # Fall back to dummy TTS
+        logger.info("Falling back to dummy TTS due to directory creation error")
+        from utils.tts_dummy import generate_speech as dummy_generate_speech
+        return dummy_generate_speech(text, language)
+    # Generate unique output path
+    timestamp = int(time.time())
+    output_path = f"{output_dir}/output_{timestamp}.wav"
+    logger.info(f"Output will be saved to: {output_path}")
+    # Get the model
+    logger.info("Retrieving Dia model instance")
+    try:
+        model = _get_model()
+        logger.info("Successfully retrieved Dia model instance")
+    except Exception as model_err:
+        logger.error(f"Failed to get Dia model: {model_err}")
+        logger.error(f"Error type: {type(model_err).__name__}")
+        # Fall back to dummy TTS
+        logger.info("Falling back to dummy TTS due to model loading error")
+        from utils.tts_dummy import generate_speech as dummy_generate_speech
+        return dummy_generate_speech(text, language)
         # Generate audio
         logger.info("Starting audio generation with Dia model")
             logger.error(f"Runtime error during generation: {rt_err}")
             if "CUDA out of memory" in str(rt_err):
                 logger.error("CUDA out of memory error - consider reducing batch size or model size")
+            # Fall back to dummy TTS
+            logger.info("Falling back to dummy TTS due to runtime error during generation")
+            from utils.tts_dummy import generate_speech as dummy_generate_speech
+            return dummy_generate_speech(text, language)
         except Exception as gen_err:
             logger.error(f"Error during audio generation: {gen_err}")
             logger.error(f"Error type: {type(gen_err).__name__}")
+            # Fall back to dummy TTS
+            logger.info("Falling back to dummy TTS due to error during generation")
+            from utils.tts_dummy import generate_speech as dummy_generate_speech
+            return dummy_generate_speech(text, language)
         end_time = time.time()
         generation_time = end_time - start_time
             except Exception as save_err:
                 logger.error(f"Error saving audio file: {save_err}")
                 logger.error(f"Error type: {type(save_err).__name__}")
+                # Fall back to dummy TTS
+                logger.info("Falling back to dummy TTS due to error saving audio file")
+                from utils.tts_dummy import generate_speech as dummy_generate_speech
+                return dummy_generate_speech(text, language)
             return output_path
         else:
         elif isinstance(e, FileNotFoundError):
             logger.error(f"File not found - check if model files exist and are accessible")
+        # Fall back to dummy TTS
+        logger.info("Falling back to dummy TTS due to unhandled exception")
+        from utils.tts_dummy import generate_speech as dummy_generate_speech
+        return dummy_generate_speech(text, language)

utils/tts_dummy.py CHANGED Viewed

@@ -1,3 +1,25 @@
 def generate_speech(text: str, language: str = "zh") -> str:
     """Public interface for TTS generation"""
-    return "temp/outputs/dummy.wav"

 def generate_speech(text: str, language: str = "zh") -> str:
     """Public interface for TTS generation"""
+    import os
+    import numpy as np
+    import soundfile as sf
+    import time
+    # Create output directory if it doesn't exist
+    output_dir = "temp/outputs"
+    os.makedirs(output_dir, exist_ok=True)
+    # Generate a unique filename
+    timestamp = int(time.time())
+    output_path = f"{output_dir}/dummy_{timestamp}.wav"
+    # Generate a simple sine wave as dummy audio
+    sample_rate = 24000
+    duration = 2.0  # seconds
+    t = np.linspace(0, duration, int(sample_rate * duration), False)
+    tone = np.sin(2 * np.pi * 440 * t) * 0.3
+    # Save the audio file
+    sf.write(output_path, tone, sample_rate)
+    return output_path