Spaces:

HumeAI
/

expressive-tts-arena

Running

App Files Files Community

zach commited on Feb 5

Commit

d4b2b49

1 Parent(s): 0d3ca01

Update eleven labs integration to consume the voice generation api

Browse files

Files changed (3) hide show

src/config.py +1 -1
src/integrations/elevenlabs_api.py +5 -39
src/integrations/hume_api.py +10 -14

src/config.py CHANGED Viewed

@@ -18,7 +18,7 @@ from dotenv import load_dotenv
 # Load environment variables
-load_dotenv()
 # Enable debugging mode based on an environment variable

 # Load environment variables
+load_dotenv(override=True)
 # Enable debugging mode based on an environment variable

src/integrations/elevenlabs_api.py CHANGED Viewed

@@ -20,6 +20,7 @@ Functions:
 """
 # Standard Library Imports
 from dataclasses import dataclass
 from enum import Enum
 import logging
@@ -35,44 +36,16 @@ from src.config import logger
 from src.utils import validate_env_var
-ElevenlabsVoiceName = Literal["Adam", "Antoni", "Rachel", "Matilda"]
-class ElevenLabsVoice(Enum):
-    ADAM = ("Adam", "pNInz6obpgDQGcFmaJgB")
-    ANTONI = ("Antoni", "ErXwobaYiN019PkySvjV")
-    RACHEL = ("Rachel", "21m00Tcm4TlvDq8ikWAM")
-    MATILDA = ("Matilda", "XrExE9yKIg1WjnnlVkGX")
-    @property
-    def voice_name(self) -> ElevenlabsVoiceName:
-        """Returns the display name of the voice."""
-        return self.value[0]
-    @property
-    def voice_id(self) -> str:
-        """Returns the ElevenLabs voice ID."""
-        return self.value[1]
 @dataclass(frozen=True)
 class ElevenLabsConfig:
     """Immutable configuration for interacting with the ElevenLabs TTS API."""
     api_key: str = validate_env_var("ELEVENLABS_API_KEY")
-    model_id: str = (
-        "eleven_multilingual_v2"  # ElevenLab's most emotionally expressive model
-    )
-    output_format: str = "mp3_44100_128"  # Output format of the generated audio
     def __post_init__(self):
         # Validate that required attributes are set
         if not self.api_key:
             raise ValueError("ElevenLabs API key is not set.")
-        if not self.model_id:
-            raise ValueError("ElevenLabs Model ID is not set.")
-        if not self.output_format:
-            raise ValueError("ElevenLabs Output Format is not set.")
     @property
     def client(self) -> ElevenLabs:
@@ -84,16 +57,6 @@ class ElevenLabsConfig:
         """
         return ElevenLabs(api_key=self.api_key)
-    @property
-    def random_voice(self) -> ElevenLabsVoice:
-        """
-        Selects a random ElevenLabs voice.
-        Returns:
-            ElevenLabsVoice: A randomly selected voice enum member.
-        """
-        return random.choice(list(ElevenLabsVoice))
 class ElevenLabsError(Exception):
     """Custom exception for errors related to the ElevenLabs TTS API."""
@@ -132,6 +95,8 @@ def text_to_speech_with_elevenlabs(prompt: str, text: str) -> bytes:
         f"Synthesizing speech with ElevenLabs. Text length: {len(text)} characters."
     )
     try:
         # Synthesize speech using the ElevenLabs SDK
         response = elevenlabs_config.client.text_to_voice.create_previews(
@@ -145,7 +110,8 @@ def text_to_speech_with_elevenlabs(prompt: str, text: str) -> bytes:
             logger.error(msg)
             raise ElevenLabsError(message=msg)
-        base64_audio = previews[0].audio_base64
         audio = base64.b64decode(base64_audio)
         return audio

 """
 # Standard Library Imports
+import base64
 from dataclasses import dataclass
 from enum import Enum
 import logging
 from src.utils import validate_env_var
 @dataclass(frozen=True)
 class ElevenLabsConfig:
     """Immutable configuration for interacting with the ElevenLabs TTS API."""
     api_key: str = validate_env_var("ELEVENLABS_API_KEY")
     def __post_init__(self):
         # Validate that required attributes are set
         if not self.api_key:
             raise ValueError("ElevenLabs API key is not set.")
     @property
     def client(self) -> ElevenLabs:
         """
         return ElevenLabs(api_key=self.api_key)
 class ElevenLabsError(Exception):
     """Custom exception for errors related to the ElevenLabs TTS API."""
         f"Synthesizing speech with ElevenLabs. Text length: {len(text)} characters."
     )
+    request_body = {"text": text, "voice_description": prompt}
     try:
         # Synthesize speech using the ElevenLabs SDK
         response = elevenlabs_config.client.text_to_voice.create_previews(
             logger.error(msg)
             raise ElevenLabsError(message=msg)
+        preview = random.choice(previews)
+        base64_audio = preview.audio_base_64
         audio = base64.b64decode(base64_audio)
         return audio

src/integrations/hume_api.py CHANGED Viewed

@@ -39,14 +39,14 @@ class HumeConfig:
     """Immutable configuration for interacting with the Hume TTS API."""
     api_key: str = validate_env_var("HUME_API_KEY")
-    tts_endpoint_url: str = "https://test-api.hume.ai/v0/tts/octave"
     headers: dict = None
     def __post_init__(self):
         # Validate required attributes
         if not self.api_key:
             raise ValueError("Hume API key is not set.")
-        if not self.tts_endpoint_url:
             raise ValueError("Hume TTS endpoint URL is not set.")
         # Set headers dynamically after validation
@@ -102,29 +102,25 @@ def text_to_speech_with_hume(prompt: str, text: str) -> bytes:
     try:
         # Synthesize speech using the Hume TTS API
         response = requests.post(
-            url=hume_config.tts_endpoint_url,
             headers=hume_config.headers,
             json=request_body,
         )
         response.raise_for_status()
-    except requests.RequestException as re:
-        logger.exception(f"Error communicating with Hume TTS API: {re}")
-        raise HumeError(f"Error communicating with Hume TTS API: {re}") from re
-    try:
-        # Parse JSON response
         response_data = response.json()
-    except ValueError as ve:
-        logger.exception("Invalid JSON response from Hume TTS API")
-        raise HumeError("Invalid JSON response from Hume TTS API") from ve
     try:
         # Safely extract the generation result from the response JSON
         generations = response_data.get("generations", [])
-        if not generations or "audio" not in generations[0]:
             logger.error("Missing 'audio' data in the response.")
             raise HumeError("Missing audio data in response from Hume TTS API")
-        base64_audio = generations[0]["audio"]
         # Decode base64 encoded audio
         audio = base64.b64decode(base64_audio)
     except (KeyError, TypeError, base64.binascii.Error) as ae:

     """Immutable configuration for interacting with the Hume TTS API."""
     api_key: str = validate_env_var("HUME_API_KEY")
+    url: str = "https://test-api.hume.ai/v0/tts/octave"
     headers: dict = None
     def __post_init__(self):
         # Validate required attributes
         if not self.api_key:
             raise ValueError("Hume API key is not set.")
+        if not self.url:
             raise ValueError("Hume TTS endpoint URL is not set.")
         # Set headers dynamically after validation
     try:
         # Synthesize speech using the Hume TTS API
         response = requests.post(
+            url=hume_config.url,
             headers=hume_config.headers,
             json=request_body,
         )
         response.raise_for_status()
         response_data = response.json()
+    except requests.RequestException as re:
+        request_error_msg = f"Error communicating with Hume TTS API: {re}"
+        logger.exception(request_error_msg)
+        raise HumeError(request_error_msg) from re
     try:
         # Safely extract the generation result from the response JSON
         generations = response_data.get("generations", [])
+        if not generations:
             logger.error("Missing 'audio' data in the response.")
             raise HumeError("Missing audio data in response from Hume TTS API")
+        generation = generations[0]
+        base64_audio = generation.get("audio")
         # Decode base64 encoded audio
         audio = base64.b64decode(base64_audio)
     except (KeyError, TypeError, base64.binascii.Error) as ae: