Spaces:

Steph254
/

demo_1

Runtime error

Steph254 commited on Mar 18

Commit

8c6c12f

verified ·

1 Parent(s): be4cb79

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,37 +13,31 @@ if not HUGGINGFACE_TOKEN:
 print("✅ HUGGINGFACE_TOKEN is set.")
-# Model Paths (Replace with your actual Hugging Face Model Names)
-BASE_MODEL = "meta-llama/Llama-3.2-1B-Instruct"
-QLORA_ADAPTER = "meta-llama/Llama-3.2-1B-Instruct-QLORA_INT4_EO8"
 LLAMA_GUARD_NAME = "meta-llama/Llama-Guard-3-1B-INT4"
-# Function to load Llama model
-def load_llama_model(base_model=BASE_MODEL, adapter=None, is_guard=False):
-    print(f"🔄 Loading Model: {base_model}")
-    tokenizer = AutoTokenizer.from_pretrained(base_model, token=HUGGINGFACE_TOKEN)
     model = AutoModelForCausalLM.from_pretrained(
-        base_model,
         token=HUGGINGFACE_TOKEN,
-        torch_dtype=torch.float32,  # Using float32 for CPU compatibility
         low_cpu_mem_usage=True
     )
-    if adapter and not is_guard:
-        print(f"🔄 Loading Adapter: {adapter}")
-        model = PeftModel.from_pretrained(model, adapter, token=HUGGINGFACE_TOKEN)
-        model = model.merge_and_unload()
-        print("✅ Adapter Loaded Successfully")
     model.eval()
     return tokenizer, model
-# Load Llama 3.2 model
-tokenizer, model = load_llama_model(adapter=QLORA_ADAPTER)
 # Load Llama Guard for content moderation
-guard_tokenizer, guard_model = load_llama_model(base_model=LLAMA_GUARD_NAME, is_guard=True)
 # Define Prompt Templates
 PROMPTS = {

 print("✅ HUGGINGFACE_TOKEN is set.")
+# Model Paths
+QUANTIZED_MODEL = "meta-llama/Llama-3.2-1B-Instruct-QLORA_INT4_EO8"  # Directly using quantized model
 LLAMA_GUARD_NAME = "meta-llama/Llama-Guard-3-1B-INT4"
+# Function to load Llama model (without LoRA)
+def load_llama_model(model_name, is_guard=False):
+    print(f"🔄 Loading Model: {model_name}")
+    tokenizer = AutoTokenizer.from_pretrained(model_name, token=HUGGINGFACE_TOKEN)
     model = AutoModelForCausalLM.from_pretrained(
+        model_name,
         token=HUGGINGFACE_TOKEN,
+        torch_dtype=torch.float16,  # Use float16 for optimized performance
         low_cpu_mem_usage=True
     )
     model.eval()
+    print("✅ Model Loaded Successfully")
     return tokenizer, model
+# Load the quantized Llama model
+tokenizer, model = load_llama_model(QUANTIZED_MODEL)
 # Load Llama Guard for content moderation
+guard_tokenizer, guard_model = load_llama_model(LLAMA_GUARD_NAME, is_guard=True)
 # Define Prompt Templates
 PROMPTS = {