Spaces:

ibrahimBlyc
/

LA_Llama_Chat

Running

App Files Files Community

ibrahimBlyc commited on Jan 23

Commit

6ec905a

1 Parent(s): 1616b8c

Update space

Browse files

Files changed (1) hide show

app.py +41 -29

app.py CHANGED Viewed

@@ -1,20 +1,7 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
-def respond(
-    message,
-    history: list[tuple[str, str]],
-    system_message,
-    max_tokens,
-    temperature,
-    top_p,
-):
     messages = [{"role": "system", "content": system_message}]
     for val in history:
@@ -27,22 +14,47 @@ def respond(
     response = ""
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
-"""
-For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
-"""
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
@@ -61,4 +73,4 @@ demo = gr.ChatInterface(
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+import requests
+def respond(message, history, system_message, max_tokens, temperature, top_p):
     messages = [{"role": "system", "content": system_message}]
     for val in history:
     response = ""
+    data = {
+        "model": "hf.co/ibrahimBlyc/LA_Llama:latest",
+        "prompt": "", # On construit le prompt complet ci-dessous
+        "max_tokens": max_tokens,
+        "temperature": temperature,
+        "top_p": top_p
+        # Autres paramètres Ollama si nécessaire
+    }
+    # Construire le prompt complet à partir des messages
+    prompt = ""
+    for msg in messages:
+        prompt += f"{msg['role']}: {msg['content']}\n"
+    data["prompt"] = prompt
+    url = "http://localhost:11434/api/generate"
+    try:
+        stream_response = requests.post(url, json=data, stream=True)
+        stream_response.raise_for_status() # Lève une exception si le code de status n'est pas 2xx
+        for chunk in stream_response.iter_lines():
+            if chunk:
+                decoded_chunk = chunk.decode()
+                try:
+                    response_json = eval(decoded_chunk) # Évalue la réponse JSON.  Attention à la sécurité !
+                    token = response_json.get("response", "")
+                    if token:
+                        response += token
+                        yield response
+                except (SyntaxError, NameError, json.JSONDecodeError) as e:
+                    print(f"Erreur lors du décodage du chunk : {e}. Chunk : {decoded_chunk}")
+                    yield f"Erreur: Impossible de décoder la réponse du serveur."
+                    return
+    except requests.exceptions.RequestException as e:
+        print(f"Erreur de requête : {e}")
+        yield f"Erreur: Impossible de communiquer avec le serveur Ollama."
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
 if __name__ == "__main__":
+    demo.launch(share=True)