blog

Sleeping

Mo-alaa commited on Nov 14, 2023

Commit

29a6b30

1 Parent(s): ac462f6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,21 +1,33 @@
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import streamlit as st
-device = "cuda" # the device to load the model onto
-model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
-tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
-messages = [
-    {"role": "user", "content": "What is your favourite condiment?"},
-    {"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
-    {"role": "user", "content": "Do you have mayonnaise recipes?"}
-]
-encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")
-model_inputs = encodeds.to(device)
-model.to(device)
-generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
-decoded = tokenizer.batch_decode(generated_ids)
-st.write(decoded[0])

 from transformers import AutoModelForCausalLM, AutoTokenizer
 import streamlit as st
+from transformers import AutoTokenizer, AutoModelWithLMHead
+import torch
+if torch.cuda.is_available():
+    device = torch.device("cuda")
+else:
+    device = "cpu"
+tokenizer = AutoTokenizer.from_pretrained("salesken/content_generation_from_phrases")
+model = AutoModelWithLMHead.from_pretrained("salesken/content_generation_from_phrases").to(device)
+input_query=["data science beginner"]
+query = "<|startoftext|> " + input_query[0] + " ~~"
+input_ids = tokenizer.encode(query.lower(), return_tensors='pt').to(device)
+sample_outputs = model.generate(input_ids,
+                                do_sample=True,
+                                num_beams=1,
+                                max_length=256,
+                                temperature=0.9,
+                                top_k = 30,
+                                num_return_sequences=100)
+content = []
+for i in range(len(sample_outputs)):
+    r = tokenizer.decode(sample_outputs[i], skip_special_tokens=True).split('||')[0]
+    r = r.split(' ~~ ')[1]
+    if r not in content:
+        content.append(r)
+st.write(content)