Spaces:

naonauno
/

dialogs-factory

Paused

naonauno commited on Jan 14

Commit

d7859f0

verified ·

1 Parent(s): 6f3bfb2

Upload app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from discord import app_commands
 from typing import List
 from elevenlabs import set_api_key, voices, generate, Voice, VoiceSettings, User
 import tempfile
 import speech_recognition as sr
 from pydub import AudioSegment
 import logging
@@ -81,8 +82,8 @@ async def voice_create(
     text: str,
     voice_name: str,
     stability: float = 0.9,
-    clarity: float = 0.8,
-    style: float = 0.7
 ):
     await interaction.response.defer()
@@ -112,9 +113,13 @@ async def voice_create(
             )
         )
-        # Save audio to temporary file
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as temp_file:
-            temp_file.write(audio)
             temp_path = temp_file.name
         # Get updated credits
@@ -123,8 +128,8 @@ async def voice_create(
         embed = discord.Embed(
             title="Voice Generated",
-            description=f"```diff\n+ Prompt: {text}\n+ Voice: {voice_name}\n+ Stability: {stability}\n+ Clarity: {clarity}\n+ Style: {style}\n```\n{credits_msg}",
-            color=0x2B2D31
         )
         await interaction.followup.send(
             embed=embed,

 from typing import List
 from elevenlabs import set_api_key, voices, generate, Voice, VoiceSettings, User
 import tempfile
+import io
 import speech_recognition as sr
 from pydub import AudioSegment
 import logging
     text: str,
     voice_name: str,
     stability: float = 0.9,
+    clarity: float = 0.75,
+    style: float = 0.5
 ):
     await interaction.response.defer()
             )
         )
+        # Save audio to temporary WAV file with correct format
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_file:
+            # Convert audio to proper WAV format using pydub
+            audio_segment = AudioSegment.from_file(io.BytesIO(audio), format="mp3")
+            # Convert to mono, 16-bit PCM at 22.050 kHz
+            audio_segment = audio_segment.set_frame_rate(22050).set_channels(1).set_sample_width(2)
+            audio_segment.export(temp_file.name, format='wav')
             temp_path = temp_file.name
         # Get updated credits
         embed = discord.Embed(
             title="Voice Generated",
+            description=f"Prompt: {text}\nVoice: {voice_name}\nStability: {stability}\nClarity: {clarity}\nStyle: {style}\n\n{credits_msg}",
+            color=0x57F287  # Discord green color
         )
         await interaction.followup.send(
             embed=embed,