Spaces:

edugp
/

embedding-lenses

Runtime error

edugp commited on Oct 21, 2021

Commit

737452a

1 Parent(s): 5aad559

Avoid model mutation warning

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,9 +22,8 @@ def load_model():
     return SentenceTransformer(embedder)
-def embed_text(text: List[str]) -> np.ndarray:
-    embedder_model = load_model()
-    return embedder_model.encode(text)
 def encode_labels(labels: pd.Series) -> pd.Series:
@@ -60,7 +59,7 @@ def draw_interactive_scatter_plot(
     return p
-def generate_plot(tsv: st.uploaded_file_manager.UploadedFile, text_column: str, label_column: str, sample: Optional[int]):
     logger.info("Loading dataset in memory")
     df = pd.read_csv(tsv, sep="\t")
     if label_column not in df.columns:
@@ -69,7 +68,7 @@ def generate_plot(tsv: st.uploaded_file_manager.UploadedFile, text_column: str,
     if sample:
         df = df.sample(min(sample, df.shape[0]), random_state=SEED)
     logger.info("Embedding sentences")
-    embeddings = embed_text(df[text_column].values.tolist())
     logger.info("Encoding labels")
     encoded_labels = encode_labels(df[label_column])
     logger.info("Running t-SNE")
@@ -86,9 +85,10 @@ uploaded_file = st.file_uploader("Choose an csv/tsv file...", type=["csv", "tsv"
 text_column = st.text_input("Text column name", "text")
 label_column = st.text_input("Numerical/categorical column name (ignore if not applicable)", "label")
 sample = st.number_input("Maximum number of documents to use", 1, 100000, 1000)
 if uploaded_file:
-    plot = generate_plot(uploaded_file, text_column, label_column, sample)
     logger.info("Displaying plot")
     st.bokeh_chart(plot)
     logger.info("Done")

     return SentenceTransformer(embedder)
+def embed_text(text: List[str], model: SentenceTransformer) -> np.ndarray:
+    return model.encode(text)
 def encode_labels(labels: pd.Series) -> pd.Series:
     return p
+def generate_plot(tsv: st.uploaded_file_manager.UploadedFile, text_column: str, label_column: str, sample: Optional[int], model: SentenceTransformer):
     logger.info("Loading dataset in memory")
     df = pd.read_csv(tsv, sep="\t")
     if label_column not in df.columns:
     if sample:
         df = df.sample(min(sample, df.shape[0]), random_state=SEED)
     logger.info("Embedding sentences")
+    embeddings = embed_text(df[text_column].values.tolist(), model)
     logger.info("Encoding labels")
     encoded_labels = encode_labels(df[label_column])
     logger.info("Running t-SNE")
 text_column = st.text_input("Text column name", "text")
 label_column = st.text_input("Numerical/categorical column name (ignore if not applicable)", "label")
 sample = st.number_input("Maximum number of documents to use", 1, 100000, 1000)
+model = load_model()
 if uploaded_file:
+    plot = generate_plot(uploaded_file, text_column, label_column, sample, model)
     logger.info("Displaying plot")
     st.bokeh_chart(plot)
     logger.info("Done")