Spaces:

dar-tau
/

run_inference

Running on Zero

dar-tau commited on Jun 8, 2024

Commit

8555522

verified ·

1 Parent(s): 5bd57b6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,7 +54,7 @@ def get_past_key_values(system_prompt):
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
-    return model(tokenized.to(model.device)).past_key_values
 @spaces.GPU
@@ -64,7 +64,7 @@ def generate(text, past_key_values):
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
-                    past_key_values=past_key_values,
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']

     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
+    return model(tokenized.to(model.device)).past_key_values.cpu().detach()
 @spaces.GPU
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
+                    past_key_values=past_key_values.to(model.device),
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']