Spaces:

nomadicsynth
/

openclip-embed

Sleeping

App Files Files Community

RoboApocalypse commited on May 6, 2024

Commit

2d8aec0

1 Parent(s): df34abb

chore: reformat code

Browse files

Files changed (1) hide show

app.py +39 -14

app.py CHANGED Viewed

@@ -6,16 +6,15 @@ import torch
 import PIL.Image as Image
 # Set device to GPU if available
-device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 # Load the OpenCLIP model and the necessary preprocessors
 # openclip_model = 'laion/CLIP-ViT-B-32-laion2B-s34B-b79K'
 # openclip_model = 'laion/CLIP-ViT-B-16-laion2B-s34B-b88K'
-openclip_model_name = 'laion/CLIP-ViT-L-14-laion2B-s32B-b82K'
 openclip_model = "hf-hub:" + openclip_model_name
 model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms(
-    model_name=openclip_model,
-    device=device
 )
@@ -66,7 +65,10 @@ def generate_text_embedding(text_data: Union[str, tuple[str]]) -> list[str]:
                 text_embeddings = model.encode_text(text_data)
             # Convert embeddings to list of strings
-            text_embeddings = [embedding.detach().cpu().numpy().tolist() for embedding in text_embeddings]
         # Insert empty strings at indices of empty text strings
         for i in empty_data_indices:
@@ -74,8 +76,11 @@ def generate_text_embedding(text_data: Union[str, tuple[str]]) -> list[str]:
     return text_embeddings
 # Define function to generate image embeddings
-def generate_image_embedding(image_data: Union[Image.Image, tuple[Image.Image]]) -> list[str]:
     """
     Generate embeddings for image data using the OpenCLIP model.
@@ -118,7 +123,10 @@ def generate_image_embedding(image_data: Union[Image.Image, tuple[Image.Image]])
                 image_embeddings = model.encode_image(image_data)
             # Convert embeddings to list of strings
-            image_embeddings = [embedding.detach().cpu().numpy().tolist() for embedding in image_embeddings]
         # Insert empty strings at indices of empty images
         for i in empty_data_indices:
@@ -128,7 +136,10 @@ def generate_image_embedding(image_data: Union[Image.Image, tuple[Image.Image]])
 # Define function to generate embeddings
-def generate_embedding(text_data: Union[str, tuple[str]], image_data: Union[Image.Image, tuple[Image.Image]]) -> tuple[list[str], list[str], list[str]]:
     """
     Generate embeddings for text and image data using the OpenCLIP model.
@@ -162,7 +173,9 @@ def generate_embedding(text_data: Union[str, tuple[str]], image_data: Union[Imag
         # Filter out embedding pairs with either empty text or image embeddings, tracking indices of empty embeddings
         text_embeddings_filtered = []
         image_embeddings_filtered = []
-        for i, (text_embedding, image_embedding) in enumerate(zip(text_embeddings, image_embeddings)):
             if text_embedding != "" and image_embedding != "":
                 text_embeddings_filtered.append(text_embedding)
                 image_embeddings_filtered.append(image_embedding)
@@ -176,11 +189,18 @@ def generate_embedding(text_data: Union[str, tuple[str]], image_data: Union[Imag
             image_embeddings_tensor = torch.tensor(image_embeddings_filtered)
             # Normalize the embeddings
-            text_embedding_norm = text_embeddings_tensor / text_embeddings_tensor.norm(dim=-1, keepdim=True)
-            image_embedding_norm = image_embeddings_tensor / image_embeddings_tensor.norm(dim=-1, keepdim=True)
             # Calculate cosine similarity
-            similarity = torch.nn.functional.cosine_similarity(text_embedding_norm, image_embedding_norm, dim=-1)
             # Convert to percentage as text
             similarity = [f"{sim.item() * 100:.2f}%" for sim in similarity]
@@ -195,7 +215,12 @@ def generate_embedding(text_data: Union[str, tuple[str]], image_data: Union[Imag
 demo = gr.Interface(
     fn=generate_embedding,
     inputs=[
-        gr.Textbox(lines=5, max_lines=5, placeholder="Enter Text Here...", label="Text to Embed"),
         gr.Image(height=512, type="pil", label="Image to Embed"),
     ],
     outputs=[
@@ -208,7 +233,7 @@ demo = gr.Interface(
     description="Generate embeddings using OpenCLIP model for text and images.",
     allow_flagging="never",
     batch=False,
-    api_name="embed"
 )
 # Enable queueing and launch the app

 import PIL.Image as Image
 # Set device to GPU if available
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Load the OpenCLIP model and the necessary preprocessors
 # openclip_model = 'laion/CLIP-ViT-B-32-laion2B-s34B-b79K'
 # openclip_model = 'laion/CLIP-ViT-B-16-laion2B-s34B-b88K'
+openclip_model_name = "laion/CLIP-ViT-L-14-laion2B-s32B-b82K"
 openclip_model = "hf-hub:" + openclip_model_name
 model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms(
+    model_name=openclip_model, device=device
 )
                 text_embeddings = model.encode_text(text_data)
             # Convert embeddings to list of strings
+            text_embeddings = [
+                embedding.detach().cpu().numpy().tolist()
+                for embedding in text_embeddings
+            ]
         # Insert empty strings at indices of empty text strings
         for i in empty_data_indices:
     return text_embeddings
 # Define function to generate image embeddings
+def generate_image_embedding(
+    image_data: Union[Image.Image, tuple[Image.Image]]
+) -> list[str]:
     """
     Generate embeddings for image data using the OpenCLIP model.
                 image_embeddings = model.encode_image(image_data)
             # Convert embeddings to list of strings
+            image_embeddings = [
+                embedding.detach().cpu().numpy().tolist()
+                for embedding in image_embeddings
+            ]
         # Insert empty strings at indices of empty images
         for i in empty_data_indices:
 # Define function to generate embeddings
+def generate_embedding(
+    text_data: Union[str, tuple[str]],
+    image_data: Union[Image.Image, tuple[Image.Image]],
+) -> tuple[list[str], list[str], list[str]]:
     """
     Generate embeddings for text and image data using the OpenCLIP model.
         # Filter out embedding pairs with either empty text or image embeddings, tracking indices of empty embeddings
         text_embeddings_filtered = []
         image_embeddings_filtered = []
+        for i, (text_embedding, image_embedding) in enumerate(
+            zip(text_embeddings, image_embeddings)
+        ):
             if text_embedding != "" and image_embedding != "":
                 text_embeddings_filtered.append(text_embedding)
                 image_embeddings_filtered.append(image_embedding)
             image_embeddings_tensor = torch.tensor(image_embeddings_filtered)
             # Normalize the embeddings
+            text_embedding_norm = text_embeddings_tensor / text_embeddings_tensor.norm(
+                dim=-1, keepdim=True
+            )
+            image_embedding_norm = (
+                image_embeddings_tensor
+                / image_embeddings_tensor.norm(dim=-1, keepdim=True)
+            )
             # Calculate cosine similarity
+            similarity = torch.nn.functional.cosine_similarity(
+                text_embedding_norm, image_embedding_norm, dim=-1
+            )
             # Convert to percentage as text
             similarity = [f"{sim.item() * 100:.2f}%" for sim in similarity]
 demo = gr.Interface(
     fn=generate_embedding,
     inputs=[
+        gr.Textbox(
+            lines=5,
+            max_lines=5,
+            placeholder="Enter Text Here...",
+            label="Text to Embed",
+        ),
         gr.Image(height=512, type="pil", label="Image to Embed"),
     ],
     outputs=[
     description="Generate embeddings using OpenCLIP model for text and images.",
     allow_flagging="never",
     batch=False,
+    api_name="embed",
 )
 # Enable queueing and launch the app