web-phishing-detection

Sleeping

rmdhirr commited on Jun 16, 2024

Commit

102a386

verified ·

1 Parent(s): a664f59

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
 from tensorflow.keras.preprocessing.sequence import pad_sequences
 import re
 # Load the model
 model = tf.keras.models.load_model('new_phishing_detection_model.keras')
@@ -25,6 +26,10 @@ nltk.download('wordnet')
 STOPWORDS = set(stopwords.words('english'))
 lemmatizer = WordNetLemmatizer()
 def normalize_length(text, target_length=50):
     if len(text) < target_length:
         text = text + " " * (target_length - len(text))
@@ -36,6 +41,8 @@ def preprocess_url(url):
     url = url.lower()
     url = re.sub(r'https?://', '', url)
     url = re.sub(r'www\.', '', url)
     url = re.sub(r'[^a-zA-Z0-9]', ' ', url)
     url = re.sub(r'\s+', ' ', url).strip()
     url = normalize_length(url)

 from nltk.stem import WordNetLemmatizer
 from tensorflow.keras.preprocessing.sequence import pad_sequences
 import re
+from urllib.parse import urlparse
 # Load the model
 model = tf.keras.models.load_model('new_phishing_detection_model.keras')
 STOPWORDS = set(stopwords.words('english'))
 lemmatizer = WordNetLemmatizer()
+def extract_domain(url):
+    domain = urlparse(url).netloc
+    return domain
 def normalize_length(text, target_length=50):
     if len(text) < target_length:
         text = text + " " * (target_length - len(text))
     url = url.lower()
     url = re.sub(r'https?://', '', url)
     url = re.sub(r'www\.', '', url)
+    domain = extract_domain(url)
+    url = re.sub(domain, '', url)
     url = re.sub(r'[^a-zA-Z0-9]', ' ', url)
     url = re.sub(r'\s+', ' ', url).strip()
     url = normalize_length(url)