Spaces:

nikravan
/

GLM4_0414

Running on Zero

nikravan commited on 20 days ago

Commit

ed592a2

verified ·

1 Parent(s): f4c4266

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,41 +29,41 @@ def respond(
     from transformers import AutoModelForCausalLM, AutoTokenizer
-MODEL_PATH = "THUDM/GLM-4-Z1-32B-0414"
-tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
-model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")
-message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]
-inputs = tokenizer.apply_chat_template(
-    message,
-    return_tensors="pt",
-    add_generation_prompt=True,
-    return_dict=True,
-).to(model.device)
-generate_kwargs = {
-    "input_ids": inputs["input_ids"],
-    "attention_mask": inputs["attention_mask"],
-    "max_new_tokens": 4096,
-    "do_sample": False,
-}
-out = model.generate(**generate_kwargs)
-print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
-    for message in client.chat_completion(
-        messages,
-        max_tokens=max_tokens,
-        stream=True,
-        temperature=temperature,
-        top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
 """

     from transformers import AutoModelForCausalLM, AutoTokenizer
+    MODEL_PATH = "THUDM/GLM-4-Z1-32B-0414"
+    tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
+    model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")
+    message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]
+    inputs = tokenizer.apply_chat_template(
+        message,
+        return_tensors="pt",
+        add_generation_prompt=True,
+        return_dict=True,
+    ).to(model.device)
+    generate_kwargs = {
+        "input_ids": inputs["input_ids"],
+        "attention_mask": inputs["attention_mask"],
+        "max_new_tokens": 4096,
+        "do_sample": False,
+    }
+    out = model.generate(**generate_kwargs)
+    response=(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
+    yield response
+    # for message in client.chat_completion(
+    #     messages,
+    #     max_tokens=max_tokens,
+    #     stream=True,
+    #     temperature=temperature,
+    #     top_p=top_p,
+    # ):
+    #     token = message.choices[0].delta.content
+    #     response += token
+    #     yield response
 """