Spaces:

KeerthiVM
/

SkinGPT

Running

App Files Files Community

KeerthiVM commited on 8 days ago

Commit

af6df0b

1 Parent(s): 5882944

Issue fix

Browse files

Files changed (1) hide show

app.py +12 -2

app.py CHANGED Viewed

@@ -22,6 +22,10 @@ import os
 from huggingface_hub import hf_hub_download
 from transformers import BitsAndBytesConfig
 from accelerate import init_empty_weights
 token = os.getenv("HF_TOKEN")
 if not token:
     raise ValueError("Hugging Face token not found in environment variables")
@@ -166,6 +170,9 @@ class SkinGPT4(nn.Module):
             self.llama.config.hidden_size
         ).to(self.dtype)
         for param in self.llama_proj.parameters():
             param.requires_grad = False
@@ -331,8 +338,9 @@ class SkinGPT4(nn.Module):
             raise ValueError("Image token not found in prompt")
         # Prepare embeddings
         input_embeddings = self.llama.model.embed_tokens(inputs.input_ids)
-        projected_features = self.llama_proj(aligned_features.mean(dim=1, keepdim=True))
-        input_embeddings[image_token_pos] = projected_features
         outputs = self.llama.generate(
             inputs_embeds=input_embeddings,
@@ -357,6 +365,8 @@ class SkinGPTClassifier:
         with st.spinner("Loading AI models (this may take several minutes)..."):
             self.model = self._load_model()
         # Image transformations
         self.transform = transforms.Compose([

 from huggingface_hub import hf_hub_download
 from transformers import BitsAndBytesConfig
 from accelerate import init_empty_weights
+import warnings
+from transformers import logging
+warnings.filterwarnings("ignore", category=UserWarning)
+logging.set_verbosity_error()
 token = os.getenv("HF_TOKEN")
 if not token:
     raise ValueError("Hugging Face token not found in environment variables")
             self.llama.config.hidden_size
         ).to(self.dtype)
+        print(f"Q-Former output dim: {self.q_former.bert_config.hidden_size}")
+        print(f"LLaMA input dim: {self.llama.config.hidden_size}")
         for param in self.llama_proj.parameters():
             param.requires_grad = False
             raise ValueError("Image token not found in prompt")
         # Prepare embeddings
         input_embeddings = self.llama.model.embed_tokens(inputs.input_ids)
+        # projected_features = self.llama_proj(aligned_features.mean(dim=1, keepdim=True))
+        visual_embeds = aligned_features.mean(dim=1, keepdim=True)  # [1, 1, 5120]
+        input_embeddings[image_token_pos] = visual_embeds
         outputs = self.llama.generate(
             inputs_embeds=input_embeddings,
         with st.spinner("Loading AI models (this may take several minutes)..."):
             self.model = self._load_model()
+        print(f"Q-Former output shape: {self.model.q_former(torch.randn(1, 197, 1408)).shape}")
+        print(f"Projection layer: {self.model.llama_proj}")
         # Image transformations
         self.transform = transforms.Compose([