Spaces:

pentarosarium
/

clusters

Sleeping

App Files Files Community

pentarosarium commited on Nov 18, 2024

Commit

2e0c24f

1 Parent(s): a0341a8

amend torch mistake

Browse files

Files changed (1) hide show

app.py +17 -6

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
-from transformers import pipeline
 from datetime import datetime
 import io
 import base64
@@ -10,25 +11,35 @@ from rapidfuzz import fuzz, process
 from collections import defaultdict
 from tqdm import tqdm
 import spacy
 # Download Russian model
 spacy.cli.download("ru_core_news_sm")
 class NewsProcessor:
     def __init__(self, similarity_threshold=0.75, time_threshold=24):
         try:
             self.nlp = spacy.load("ru_core_news_sm")
         except:
             self.nlp = spacy.load("en_core_web_sm")
-        self.embeddings = pipeline("feature-extraction",
-                                 model="sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
-                                 token=st.secrets["hf_token"])
         self.similarity_threshold = similarity_threshold
         self.time_threshold = time_threshold
     def encode_text(self, text):
-        return np.mean(self.embeddings(text)[0], axis=0)
     def is_company_main_subject(self, text: str, companies: List[str]) -> Tuple[bool, str]:
         text_lower = text.lower()

 import streamlit as st
 import pandas as pd
 import numpy as np
+from transformers import AutoTokenizer, AutoModel
+import torch
 from datetime import datetime
 import io
 import base64
 from collections import defaultdict
 from tqdm import tqdm
 import spacy
+import torch.nn.functional as F
 # Download Russian model
 spacy.cli.download("ru_core_news_sm")
 class NewsProcessor:
     def __init__(self, similarity_threshold=0.75, time_threshold=24):
         try:
             self.nlp = spacy.load("ru_core_news_sm")
         except:
             self.nlp = spacy.load("en_core_web_sm")
+        self.tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
+        self.model = AutoModel.from_pretrained('sentence-transformers/paraphrase-multilingual-mpnet-base-v2')
         self.similarity_threshold = similarity_threshold
         self.time_threshold = time_threshold
+    def mean_pooling(self, model_output, attention_mask):
+        token_embeddings = model_output[0]
+        input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
+        return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
     def encode_text(self, text):
+        encoded_input = self.tokenizer(text, padding=True, truncation=True, max_length=512, return_tensors='pt')
+        with torch.no_grad():
+            model_output = self.model(**encoded_input)
+        sentence_embeddings = self.mean_pooling(model_output, encoded_input['attention_mask'])
+        return F.normalize(sentence_embeddings[0], p=2, dim=0).numpy()
     def is_company_main_subject(self, text: str, companies: List[str]) -> Tuple[bool, str]:
         text_lower = text.lower()