Spaces:

Ruurd
/

tini

Sleeping

Ruurd commited on Apr 11

Commit

e237f80

verified ·

1 Parent(s): 0daaccf

Changed back to bidirectional attention

Files changed (1) hide show

llama_diffusion_model.py CHANGED Viewed

@@ -192,7 +192,7 @@ class CustomTransformerModel(PreTrainedModel):
         self.llama.resize_token_embeddings(config.vocab_size)
         for i, layer in enumerate(self.llama.model.layers):
-            layer.self_attn = BidirectionalLlamaAttention(layer.self_attn, masking='bidirectional_masked')
         # Freeze Llama to retain pre-trained knowledge
         for param in self.llama.parameters():

         self.llama.resize_token_embeddings(config.vocab_size)
         for i, layer in enumerate(self.llama.model.layers):
+            layer.self_attn = BidirectionalLlamaAttention(layer.self_attn, masking='bidirectional')
         # Freeze Llama to retain pre-trained knowledge
         for param in self.llama.parameters():