Spaces:

ethanlshen
/

SuperposedDecoding

Runtime error

ethanlshen commited on Jun 24, 2024

Commit

f9e22c8

verified ·

1 Parent(s): 0633ac3

Added model loading function

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,6 +17,15 @@ os.environ['WORLD_SIZE'] = "1"
 os.environ['MASTER_PORT'] = "12193"
 os.environ['MASTER_ADDR'] = "127.0.0.1"
 # load_dotenv()
 # print(os.getenv("HF_ACCESS_TOKEN"))
 login(os.getenv("HF_ACCESS_TOKEN"))
@@ -36,11 +45,7 @@ n_token_sample = params["n_token_sample"]
 i_weights = params["i_weights"]
 i_length = params["i_length"]
 # Load main model
-model = SuperposedLlama.build(ckpt_dir=weight_path,
-                         tokenizer_path=f'{weight_path}/tokenizer.model',
-                         max_seq_len=100,
-                         max_batch_size=32,
-                         model_parallel_size=1)
 tokenizer = Tokenizer(f'{weight_path}/tokenizer.model')
 # Create ngram models
 ngrams = make_models("ckpts-200k", bigram=True, trigram=True, fourgram=True, fivegram=True, sixgram=True, sevengram=False)

 os.environ['MASTER_PORT'] = "12193"
 os.environ['MASTER_ADDR'] = "127.0.0.1"
+@spaces.GPU
+def load_models():
+    model = SuperposedLlama.build(ckpt_dir=weight_path,
+                         tokenizer_path=f'{weight_path}/tokenizer.model',
+                         max_seq_len=100,
+                         max_batch_size=32,
+                         model_parallel_size=1)
+    return model
 # load_dotenv()
 # print(os.getenv("HF_ACCESS_TOKEN"))
 login(os.getenv("HF_ACCESS_TOKEN"))
 i_weights = params["i_weights"]
 i_length = params["i_length"]
 # Load main model
+model = load_models()
 tokenizer = Tokenizer(f'{weight_path}/tokenizer.model')
 # Create ngram models
 ngrams = make_models("ckpts-200k", bigram=True, trigram=True, fourgram=True, fivegram=True, sixgram=True, sevengram=False)