Spaces:

Ankerkraut
/

chatbot-test

Sleeping

App Files Files Community

Ankerkraut commited on Mar 31

Commit

d0fc0e2

1 Parent(s): 785cd03

use cached model fix

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -62,7 +62,7 @@ _model_cache = None
 @spaces.GPU
 def get_model():
-    global _model_cache
     if _model_cache is None:
         # Load model only if it's not already loaded
         print("Loading model for the first time...")
@@ -157,7 +157,7 @@ def search_qdrant_with_context(query_text, collection_name, top_k=3):
 @spaces.GPU
 def interactive_chat(query):
     collection_name = "products"
     if "rezept" in query.lower() or "gericht" in query.lower():
         collection_name = "recipes"
@@ -166,7 +166,7 @@ def interactive_chat(query):
     print(collection_name)
     print(query)
     if len(query.split()) < 3:
-        return generate_response(query, "Der Kunde muss womöglich detailliertere Angaben machen, entscheide, was du sagst.", last_messages, 512, 0.2, 0.95, generator)
     context = [document["document"] for document in search_qdrant_with_context(query, collection_name)]
     system_message = f"""<|im_start|>system Rolle: Du bist ein KI-Assistent der die Informationen in Relation zum Kontext bewertet.
@@ -179,12 +179,12 @@ def interactive_chat(query):
          {query}
         <|im_end|>
         <|im_start|>assistant"""
-    refined_context = generator_mini(system_message, do_sample=True, padding=True, truncation=True, top_p=0.95, max_new_tokens=100)
     # Retrieve relevant context from Qdrant
     print(f"""Refined context: {refined_context[0]["generated_text"].split("assistant").pop()}""")
     context = [document["document"] for document in search_qdrant_with_context(query + " " + refined_context[0]["generated_text"].split("assistant\n").pop(), collection_name)]
-    answer = generate_response(query, context, last_messages, 512, 0.2, 0.95, generator)
     full_conv = f"<|im_start|>user {query}<|im_end|><|im_start|>assistent {answer}<|im_end|>"
     # if len(last_messages) > 5:
     #     last_messages.pop(0)

 @spaces.GPU
 def get_model():
+    print(f"Model: {_model_cache}")
     if _model_cache is None:
         # Load model only if it's not already loaded
         print("Loading model for the first time...")
 @spaces.GPU
 def interactive_chat(query):
+    generator = get_model()
     collection_name = "products"
     if "rezept" in query.lower() or "gericht" in query.lower():
         collection_name = "recipes"
     print(collection_name)
     print(query)
     if len(query.split()) < 3:
+        return generate_response(query, "Der Kunde muss womöglich detailliertere Angaben machen, entscheide, was du sagst.", last_messages, 512, 0.2, 0.95, generator[0])
     context = [document["document"] for document in search_qdrant_with_context(query, collection_name)]
     system_message = f"""<|im_start|>system Rolle: Du bist ein KI-Assistent der die Informationen in Relation zum Kontext bewertet.
          {query}
         <|im_end|>
         <|im_start|>assistant"""
+    refined_context = generator[1](system_message, do_sample=True, padding=True, truncation=True, top_p=0.95, max_new_tokens=100)
     # Retrieve relevant context from Qdrant
     print(f"""Refined context: {refined_context[0]["generated_text"].split("assistant").pop()}""")
     context = [document["document"] for document in search_qdrant_with_context(query + " " + refined_context[0]["generated_text"].split("assistant\n").pop(), collection_name)]
+    answer = generate_response(query, context, last_messages, 512, 0.2, 0.95, generator[0])
     full_conv = f"<|im_start|>user {query}<|im_end|><|im_start|>assistent {answer}<|im_end|>"
     # if len(last_messages) > 5:
     #     last_messages.pop(0)