Spaces:

bluuebunny
/

embed_text

Sleeping

bluuebunny commited on Apr 4

Commit

e9ce7de

verified ·

1 Parent(s): a1f0d23

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,38 +1,33 @@
-# Import required libraries
-import gradio as gr # For interface
-from sentence_transformers import SentenceTransformer # For embedding the text
-import torch # For gpu
-import numpy as np
-# Make the app device agnostic
-device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
-# Load a pretrained Sentence Transformer model and move it to the appropriate device
-model = SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1")
-model = model.to(device)
-# Function that does the embedding
-def predict(input_text):
-    # Calculate embeddings by calling model.encode(), specifying the device
-    embeddings = model.encode(input_text, device=device)
-    # Set the print options to avoid truncation and use fixed-point notation
-    np.set_printoptions(threshold=np.inf, precision=8, suppress=True, floatmode='fixed')
-    # Convert the array to a string for display
-    embeddings_str = np.array2string(embeddings, separator=',')
-    return embeddings_str
-# Gradio app interface
-gradio_app = gr.Interface(
-    predict,
-    inputs=gr.Textbox(placeholder="Insert Text", label='Text'),
-    outputs=gr.Textbox(max_lines=1, placeholder='Vector of dimensions 1024', label='Vector', show_label=True, show_copy_button=True),
-    title="Text to Vector Generator",
-    description="Embedding model: mixedbread-ai/mxbai-embed-large-v1."
-)
-if __name__ == "__main__":
-    gradio_app.launch()

+from sentence_transformers import SentenceTransformer
+import gradio as gr
+import numpy as np
+import torch
+# Function to convert dense vector to binary vector
+def dense_to_binary(dense_vector):
+    return np.packbits(np.where(dense_vector >= 0, 1, 0)).tobytes()
+# Load the model
+device="cuda" if torch.cuda.is_available() else "cpu"
+model = SentenceTransformer("mixedbread-ai/mxbai-embed-large-v1", device=device)
+def embed(text:str):
+    # Float embedding
+    float_vector = model.encode(text, convert_to_numpy=True)
+    # Convert to binary vector
+    binary_vector = dense_to_binary(float_vector)
+    # Return both vectors
+    return float_vector, binary_vector
+# Gradio interface
+interface = gr.Interface(
+    fn=embed,
+    inputs=["text"],
+    outputs=["json", "text"]
+    )
+interface.launch(server_port=7860)