Spaces:

nezihtopaloglu
/

text-to-video

Running on Zero

App Files Files Community

nezihtopaloglu commited on Feb 22

Commit

4683bc9

verified ·

1 Parent(s): d22b9a3

Removed subtitles feature and fixed long title placement problem

Browse files

Files changed (1) hide show

app.py +39 -17

app.py CHANGED Viewed

@@ -8,6 +8,37 @@ import numpy as np
 import os
 from PIL import Image, ImageDraw, ImageFont
 def estimate_chunk_durations(text, words_per_second=2.5, min_sec=5, max_sec=7):
     words = text.split()
     chunks = []
@@ -55,17 +86,12 @@ def generate_images(chunks, image_size=(640, 480), use_diffusion=True, num_steps
         image_paths.append(img_path)
     return image_paths
-def create_video(images, durations, speech_path, movie_title, add_subtitles, chunks, image_size=(640, 480)):
     clips = []
     # Title clip using PIL instead of ImageMagick
-    title_img = Image.new("RGB", image_size, (0, 0, 0))
-    draw = ImageDraw.Draw(title_img)
-    try:
-        font = ImageFont.truetype("/usr/share/fonts/truetype/dejavu/DejaVuSans-Bold.ttf", 50)
-    except IOError:
-        font = ImageFont.load_default()
-    draw.text((50, 50), movie_title, font=font, fill="white")
     title_img_path = "title.png"
     title_img.save(title_img_path)
@@ -75,10 +101,7 @@ def create_video(images, durations, speech_path, movie_title, add_subtitles, chu
     for img, dur, chunk in zip(images, durations, chunks):
         frame = np.array(Image.open(img).resize(image_size, Image.Resampling.LANCZOS))
         clip = mp.ImageClip(frame).set_duration(dur)
-        if add_subtitles:
-            txt_clip = mp.TextClip(chunk, fontsize=30, color='white', size=(image_size[0] - 20, None), method='caption')
-            txt_clip = txt_clip.set_duration(dur).set_position(('center', 'bottom'))
-            clip = mp.CompositeVideoClip([clip, txt_clip])
         clips.append(clip)
     black_end = mp.ColorClip(image_size, color=(0,0,0), duration=2)
@@ -88,23 +111,22 @@ def create_video(images, durations, speech_path, movie_title, add_subtitles, chu
     final_video.write_videofile("output.mp4", fps=24)
     return "output.mp4"
-def process_text(text, movie_title, image_size, use_diffusion, num_steps, add_subtitles):
     chunks = estimate_chunk_durations(text)
     speech_path = generate_speech(text)
     image_paths = generate_images(chunks, image_size, use_diffusion, num_steps)
     durations = [min(10, max(5, len(chunk.split()) / 2.5)) for chunk in chunks]
-    video_path = create_video(image_paths, durations, speech_path, movie_title, add_subtitles, chunks, image_size)
     return video_path
 with gr.Blocks() as demo:
-    gr.Markdown("# Text-to-Video Generator using AI 🎥")
     text_input = gr.Textbox(label="Enter your text")
     movie_title_input = gr.Textbox(label="Movie Title", value="")
     file_input = gr.File(label="Or upload a .txt file")
     image_size_input = gr.Radio(choices=["640x480", "800x600", "1024x768"], label="Select Image Size", value="640x480")
     use_diffusion_input = gr.Checkbox(label="Use Diffusion Images", value=True)
     num_steps_input = gr.Slider(minimum=1, maximum=50, step=1, value=5, label="Diffusion Model Steps")
-    add_subtitles_input = gr.Checkbox(label="Add Subtitles", value=False)
     process_btn = gr.Button("Generate Video")
     output_video = gr.Video()
@@ -114,6 +136,6 @@ with gr.Blocks() as demo:
         image_size_dict = {"640x480": (640, 480), "800x600": (800, 600), "1024x768": (1024, 768)}
         return process_text(text, movie_title, image_size_dict[image_size], use_diffusion, num_steps, add_subtitles)
-    process_btn.click(handle_request, inputs=[text_input, movie_title_input, file_input, image_size_input, use_diffusion_input, num_steps_input, add_subtitles_input], outputs=output_video)
 demo.launch()

 import os
 from PIL import Image, ImageDraw, ImageFont
+def create_centered_title(image_size, text, max_font_size=50, min_font_size=10, padding=20):
+    """Creates a title image with auto-adjusting text size to fit within the image."""
+    title_img = Image.new("RGB", image_size, (0, 0, 0))
+    draw = ImageDraw.Draw(title_img)
+    # Load the maximum font size
+    font_size = max_font_size
+    try:
+        font = ImageFont.truetype("/usr/share/fonts/truetype/dejavu/DejaVuSans-Bold.ttf", font_size)
+    except IOError:
+        font = ImageFont.load_default()
+    # Reduce font size until the text fits within the image
+    while font_size > min_font_size:
+        text_bbox = draw.textbbox((0, 0), text, font=font)
+        text_w = text_bbox[2] - text_bbox[0]
+        text_h = text_bbox[3] - text_bbox[1]
+        if text_w <= image_size[0] - 2 * padding and text_h <= image_size[1] - 2 * padding:
+            break  # Text fits, exit loop
+        font_size -= 2  # Decrease font size
+        font = ImageFont.truetype("/usr/share/fonts/truetype/dejavu/DejaVuSans-Bold.ttf", font_size)
+    # Center the text
+    text_x = (image_size[0] - text_w) // 2
+    text_y = (image_size[1] - text_h) // 2
+    draw.text((text_x, text_y), text, font=font, fill="white")
+    return title_img
 def estimate_chunk_durations(text, words_per_second=2.5, min_sec=5, max_sec=7):
     words = text.split()
     chunks = []
         image_paths.append(img_path)
     return image_paths
+def create_video(images, durations, speech_path, movie_title, chunks, image_size=(640, 480)):
     clips = []
     # Title clip using PIL instead of ImageMagick
+    title_img = create_centered_title(image_size, movie_title)
     title_img_path = "title.png"
     title_img.save(title_img_path)
     for img, dur, chunk in zip(images, durations, chunks):
         frame = np.array(Image.open(img).resize(image_size, Image.Resampling.LANCZOS))
         clip = mp.ImageClip(frame).set_duration(dur)
         clips.append(clip)
     black_end = mp.ColorClip(image_size, color=(0,0,0), duration=2)
     final_video.write_videofile("output.mp4", fps=24)
     return "output.mp4"
+def process_text(text, movie_title, image_size, use_diffusion, num_steps):
     chunks = estimate_chunk_durations(text)
     speech_path = generate_speech(text)
     image_paths = generate_images(chunks, image_size, use_diffusion, num_steps)
     durations = [min(10, max(5, len(chunk.split()) / 2.5)) for chunk in chunks]
+    video_path = create_video(image_paths, durations, speech_path, movie_title, chunks, image_size)
     return video_path
 with gr.Blocks() as demo:
+    gr.Markdown("# Text-to-Video Generator for YouTubers using AI 🎥")
     text_input = gr.Textbox(label="Enter your text")
     movie_title_input = gr.Textbox(label="Movie Title", value="")
     file_input = gr.File(label="Or upload a .txt file")
     image_size_input = gr.Radio(choices=["640x480", "800x600", "1024x768"], label="Select Image Size", value="640x480")
     use_diffusion_input = gr.Checkbox(label="Use Diffusion Images", value=True)
     num_steps_input = gr.Slider(minimum=1, maximum=50, step=1, value=5, label="Diffusion Model Steps")
     process_btn = gr.Button("Generate Video")
     output_video = gr.Video()
         image_size_dict = {"640x480": (640, 480), "800x600": (800, 600), "1024x768": (1024, 768)}
         return process_text(text, movie_title, image_size_dict[image_size], use_diffusion, num_steps, add_subtitles)
+    process_btn.click(handle_request, inputs=[text_input, movie_title_input, file_input, image_size_input, use_diffusion_input, num_steps_input], outputs=output_video)
 demo.launch()