Spaces:

nezihtopaloglu
/

text-to-video

Running on Zero

App Files Files Community

nezihtopaloglu commited on Feb 12

Commit

d9d7e9a

1 Parent(s): 9d701db

frame rate issue

Browse files

Files changed (2) hide show

app.py +5 -7
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -33,7 +33,7 @@ def estimate_chunk_durations(text, words_per_second=2.5, min_sec=5, max_sec=10):
 def generate_speech(text):
     print("Generating speech...")
-    tts = TTS("tts_models/en/ljspeech/tacotron2-DDC", gpu=False)
     print("TTS model loaded")
     tts.tts_to_file(text="Hello world!", file_path="test.wav")
     wav_path = "speech.wav"
@@ -41,7 +41,7 @@ def generate_speech(text):
     print("Speech generated")
     return wav_path
-def generate_images(chunks, image_size=(640, 480), use_diffusion=True, num_steps=5):
     print("Generating images...")
     image_paths = []
@@ -72,10 +72,8 @@ def create_video(images, durations, speech_path, image_size=(640, 480)):
     for img, dur in zip(images, durations):
         pil_image = Image.open(img)
         pil_image = pil_image.resize(image_size, Image.Resampling.LANCZOS)
-        img_resized_path = f"resized_{os.path.basename(img)}"
-        pil_image.save(img_resized_path)
-        clip = mp.ImageClip(img_resized_path).set_duration(dur)
         clips.append(clip)
     black_start = mp.ColorClip((512, 512), color=(0,0,0), duration=1)
@@ -83,7 +81,7 @@ def create_video(images, durations, speech_path, image_size=(640, 480)):
     video = mp.concatenate_videoclips([black_start] + clips + [black_end])
     audio = mp.AudioFileClip(speech_path)
     final_video = video.set_audio(audio)
-    final_video.write_videofile("output.mp4", fps=24)
     return "output.mp4"
 def process_text(text, image_size, use_diffusion, num_steps):

 def generate_speech(text):
     print("Generating speech...")
+    tts = TTS("tts_models/en/ljspeech/tacotron2-DDC")
     print("TTS model loaded")
     tts.tts_to_file(text="Hello world!", file_path="test.wav")
     wav_path = "speech.wav"
     print("Speech generated")
     return wav_path
+def generate_images(chunks, image_size=(640, 480), use_diffusion=True, num_steps=40):
     print("Generating images...")
     image_paths = []
     for img, dur in zip(images, durations):
         pil_image = Image.open(img)
         pil_image = pil_image.resize(image_size, Image.Resampling.LANCZOS)
+        frame = np.array(pil_image)  # Convert to NumPy array
+        clip = mp.ImageClip(frame).set_duration(dur)
         clips.append(clip)
     black_start = mp.ColorClip((512, 512), color=(0,0,0), duration=1)
     video = mp.concatenate_videoclips([black_start] + clips + [black_end])
     audio = mp.AudioFileClip(speech_path)
     final_video = video.set_audio(audio)
+    final_video.write_videofile("output.mp4", fps=30)
     return "output.mp4"
 def process_text(text, image_size, use_diffusion, num_steps):

requirements.txt CHANGED Viewed

@@ -3,6 +3,7 @@ torch
 torchaudio
 diffusers
 transformers
 TTS
 moviepy
 numpy

 torchaudio
 diffusers
 transformers
+accelerate
 TTS
 moviepy
 numpy