Spaces:

rafaldembski
/

ScamDetector

Running

App Files Files Community

rafaldembski commited on Oct 1, 2024

Commit

1fbaac1

verified ·

1 Parent(s): 47ec987

Update utils/functions.py

Browse files

Files changed (1) hide show

utils/functions.py +90 -206

utils/functions.py CHANGED Viewed

@@ -1,14 +1,15 @@
 import phonenumbers
-from phonenumbers import geocoder, carrier, NumberParseException
 import re
 import requests
 import os
 from datetime import datetime
 import logging
 import json
-import whois  # Upewnij się, że moduł 'python-whois' jest zainstalowany: pip install python-whois
-from PIL import Image
-import pytesseract  # Upewnij się, że moduł 'pytesseract' jest zainstalowany: pip install pytesseract
 # Konfiguracja logowania
 logging.basicConfig(
@@ -24,10 +25,8 @@ FAKE_NUMBERS_FILE = os.path.join(DATA_DIR, 'fake_numbers.json')
 HISTORY_FILE = os.path.join(DATA_DIR, 'history.json')
 STATS_FILE = os.path.join(DATA_DIR, 'stats.json')
-# Upewnij się, że katalog 'data' istnieje
-os.makedirs(DATA_DIR, exist_ok=True)
 # Funkcje pomocnicze
 def load_json(file_path):
     """Ładuje dane z pliku JSON. Jeśli plik nie istnieje, zwraca pustą listę lub domyślny obiekt."""
     if not os.path.exists(file_path):
@@ -51,19 +50,10 @@ def save_json(file_path, data):
         json.dump(data, file, ensure_ascii=False, indent=4)
         logging.info(f"Dane zostały zapisane do {file_path}.")
-# Funkcja aktualizacji statystyk
-def update_stats(fraud_detected):
-    """Aktualizuje statystyki na podstawie wyniku analizy."""
-    stats = load_json(STATS_FILE)
-    stats["total_analyses"] += 1
-    if fraud_detected:
-        stats["total_frauds_detected"] += 1
-    save_json(STATS_FILE, stats)
-    logging.info(f"Statystyki zaktualizowane: {stats}.")
-# Funkcje związane z fałszywymi numerami telefonów
 def add_fake_number(phone_number):
-    """Dodaje numer telefonu do pliku fake_numbers.json jako fałszywy, jeśli jeszcze go tam nie ma."""
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     if phone_number not in fake_numbers:
         fake_numbers.append(phone_number)
@@ -75,21 +65,88 @@ def add_fake_number(phone_number):
         return False
 def is_fake_number(phone_number):
-    """Sprawdza, czy dany numer telefonu jest oznaczony jako fałszywy w pliku fake_numbers.json."""
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     exists = phone_number in fake_numbers
     logging.info(f"Sprawdzanie numeru {phone_number}: {'znaleziony' if exists else 'nie znaleziony'}.")
     return exists
 def get_fake_numbers():
-    """Pobiera listę fałszywych numerów z pliku fake_numbers.json."""
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     return fake_numbers
-# Funkcje analizy SMS
 def simple_checks(message, language):
-    """Przeprowadza proste sprawdzenia heurystyczne wiadomości SMS."""
     warnings = []
     scam_keywords = {
         'Polish': ['pieniądze', 'przelew', 'hasło', 'kod', 'nagroda', 'wygrana', 'pilne', 'pomoc', 'opłata', 'bank', 'karta', 'konto', 'logowanie', 'transakcja', 'weryfikacja', 'dane osobowe', 'szybka płatność', 'blokada konta', 'powiadomienie'],
         'German': ['Geld', 'Überweisung', 'Passwort', 'Code', 'Preis', 'Gewinn', 'dringend', 'Hilfe', 'Gebühr', 'Bank', 'Karte', 'Konto', 'Anmeldung', 'Transaktion', 'Verifizierung', 'persönliche Daten', 'schnelle Zahlung', 'Kontosperrung', 'Benachrichtigung'],
@@ -97,6 +154,7 @@ def simple_checks(message, language):
     }
     selected_keywords = scam_keywords.get(language, scam_keywords['English'])
     message_lower = message.lower()
     if any(keyword.lower() in message_lower for keyword in selected_keywords):
@@ -107,13 +165,15 @@ def simple_checks(message, language):
         warnings.append("Wiadomość zawiera prośbę o poufne informacje.")
     return warnings
-def analyze_message(content, sender_info, additional_info, api_key, language):
-    """Analizuje treść wiadomości SMS za pomocą modelu AI, wykorzystując system prompts."""
     if not api_key:
         logging.error("Brak klucza API.")
         return "Brak klucza API.", "Brak klucza API.", "Brak klucza API."
-    url = "https://api.sambanova.ai/v1/chat/completions"
     headers = {
         "Authorization": f"Bearer {api_key}",
         "Content-Type": "application/json"
@@ -197,152 +257,12 @@ Your response should be formatted exactly as specified above, using the <analysi
         """
     }
-    system_prompt = system_prompts.get(language, system_prompts['English'])
     user_prompt = f"""Analyze the following message for potential fraud:
-Message: "{content}"
-Sender Information: "{sender_info}"
-Additional Information:
-{additional_info}
-Provide your analysis and conclusions following the guidelines above."""
-    payload = {
-        "model": "Meta-Llama-3.1-8B-Instruct",
-        "messages": [
-            {"role": "system", "content": system_prompt},
-            {"role": "user", "content": user_prompt}
-        ],
-        "max_tokens": 1000,
-        "temperature": 0.2,
-        "top_p": 0.9,
-        "stop": ["<|eot_id|>"]
-    }
-    try:
-        response = requests.post(url, headers=headers, json=payload)
-        if response.status_code == 200:
-            data = response.json()
-            ai_response = data['choices'][0]['message']['content']
-            # Parsowanie odpowiedzi
-            analysis = re.search(r'<analysis>(.*?)</analysis>', ai_response, re.DOTALL)
-            risk_assessment = re.search(r'<risk_assessment>(.*?)</risk_assessment>', ai_response, re.DOTALL)
-            recommendations = re.search(r'<recommendations>(.*?)</recommendations>', ai_response, re.DOTALL)
-            analysis_text = analysis.group(1).strip() if analysis else "Brak analizy."
-            risk_text = risk_assessment.group(1).strip() if risk_assessment else "Brak oceny ryzyka."
-            recommendations_text = recommendations.group(1).strip() if recommendations else "Brak zaleceń."
-            return analysis_text, risk_text, recommendations_text
-        else:
-            logging.error(f"Błąd API: {response.status_code} - {response.text}")
-            return f"Błąd API: {response.status_code} - {response.text}", "Błąd analizy.", "Błąd analizy."
-    except Exception as e:
-        logging.error(f"Błąd połączenia z API: {e}")
-        return f"Błąd połączenia z API: {e}", "Błąd analizy.", "Błąd analizy."
-# Funkcje analizy email
-def analyze_email_message(content, sender_info, additional_info, api_key, language):
-    """Analizuje treść wiadomości email za pomocą modelu AI, wykorzystując system prompts."""
-    if not api_key:
-        logging.error("Brak klucza API.")
-        return "Brak klucza API.", "Brak klucza API.", "Brak klucza API."
-    url = "https://api.sambanova.ai/v1/chat/completions"
-    headers = {
-        "Authorization": f"Bearer {api_key}",
-        "Content-Type": "application/json"
-    }
-    system_prompts = {
-        'Polish': """
-Jesteś zaawansowanym asystentem AI specjalizującym się w identyfikacji fałszywych wiadomości email. Twoim zadaniem jest przeprowadzenie szczegółowej analizy poniższej wiadomości email, wykorzystując głęboki proces myślenia i dostarczając kompleksową ocenę. Twoja odpowiedź powinna być podzielona na trzy sekcje:
-<analysis>
-**Analiza Treści Wiadomości:**
-- Przeprowadź szczegółową analizę treści wiadomości email, identyfikując potencjalne czerwone flagi, takie jak błędy językowe, podejrzane linki, prośby o dane osobowe, pilne prośby o kontakt itp.
-- Oceń autentyczność adresu email nadawcy.
-- Opisz kontekst językowy i kulturowy wiadomości.
-- Zidentyfikuj wszelkie elementy, które mogą sugerować, że wiadomość jest próbą phishingu lub oszustwa.
-</analysis>
-<risk_assessment>
-**Ocena Ryzyka Oszustwa:**
-- Na podstawie analizy treści i dostępnych informacji oceń prawdopodobieństwo, że wiadomość email jest oszustwem. Użyj skali od 1 do 10, gdzie 1 oznacza bardzo niskie ryzyko, a 10 bardzo wysokie ryzyko.
-- Wyjaśnij, jakie czynniki wpływają na tę ocenę.
-</risk_assessment>
-<recommendations>
-**Zalecenia dla Użytkownika:**
-- Podaj jasne i konkretne zalecenia dotyczące dalszych kroków, które użytkownik powinien podjąć.
-- Uwzględnij sugestie dotyczące bezpieczeństwa, takie jak nieklikanie w podejrzane linki, nieotwieranie załączników, zgłaszanie wiadomości do odpowiednich instytucji itp.
-- Jeśli to możliwe, zasugeruj dodatkowe środki ostrożności, które użytkownik może podjąć, aby chronić swoje dane osobowe i finansowe.
-</recommendations>
-Twoja odpowiedź powinna być sformatowana dokładnie w powyższy sposób, używając znaczników <analysis>, <risk_assessment> i <recommendations>. Upewnij się, że każda sekcja jest wypełniona kompletnie i szczegółowo.
-        """,
-        'German': """
-Du bist ein fortgeschrittener KI-Assistent, spezialisiert auf die Identifizierung gefälschter Nachrichtenemail. Deine Aufgabe ist es, eine detaillierte Analyse der folgenden Nachricht email durchzuführen, indem du einen tiefgreifenden Denkprozess nutzt und eine umfassende Bewertung lieferst. Deine Antwort sollte in drei Abschnitte unterteilt sein:
-<analysis>
-**Nachrichteninhaltsanalyse:**
-- Führe eine detaillierte Analyse des Nachrichteninhalts durch und identifiziere potenzielle rote Flaggen wie sprachliche Fehler, verdächtige Links, Aufforderungen zur Preisgabe persönlicher Daten, dringende Kontaktanfragen usw.
-- Beurteile die Authentizität der E-Mail-Adresse des Absenders.
-- Beschreibe den sprachlichen und kulturellen Kontext der Nachricht.
-- Identifiziere alle Elemente, die darauf hindeuten könnten, dass die Nachricht ein Versuch von Phishing oder Betrug ist.
-</analysis>
-<risk_assessment>
-**Betrugsrisikobewertung:**
-- Basierend auf der Inhaltsanalyse und den verfügbaren Informationen, bewerte die Wahrscheinlichkeit, dass die Nachricht email ein Betrug ist. Verwende eine Skala von 1 bis 10, wobei 1 sehr geringes Risiko und 10 sehr hohes Risiko bedeutet.
-- Erkläre, welche Faktoren diese Bewertung beeinflussen.
-</risk_assessment>
-<recommendations>
-**Empfehlungen für den Benutzer:**
-- Gib klare und konkrete Empfehlungen zu den nächsten Schritten, die der Benutzer unternehmen sollte.
-- Berücksichtige Sicherheitsempfehlungen wie das Nicht-Klicken auf verdächtige Links, das Nicht-Otöffnen von Anhängen, das Melden der Nachricht an entsprechende Behörden usw.
-- Wenn möglich, schlage zusätzliche Vorsichtsmaßnahmen vor, die der Benutzer ergreifen kann, um seine persönlichen und finanziellen Daten zu schützen.
-</recommendations>
-Deine Antwort sollte genau nach den oben genannten Richtlinien formatiert sein und die Markierungen <analysis>, <risk_assessment> und <recommendations> verwenden. Stelle sicher, dass jeder Abschnitt vollständig und detailliert ausgefüllt ist.
-        """,
-        'English': """
-You are an advanced AI assistant specializing in identifying fake email messages. Your task is to conduct a detailed analysis of the following email message, utilizing a deep thinking process and providing a comprehensive assessment. Your response should be divided into three sections:
-<analysis>
-**Message Content Analysis:**
-- Conduct a detailed analysis of the email message content, identifying potential red flags such as language errors, suspicious links, requests for personal information, urgent contact requests, etc.
-- Assess the authenticity of the sender's email address.
-- Describe the linguistic and cultural context of the message.
-- Identify any elements that may suggest the message is an attempt at phishing or fraud.
-</analysis>
-<risk_assessment>
-**Fraud Risk Assessment:**
-- Based on the content analysis and available information, assess the likelihood that the email message is fraudulent. Use a scale from 1 to 10, where 1 indicates very low risk and 10 indicates very high risk.
-- Explain the factors that influence this assessment.
-</risk_assessment>
-<recommendations>
-**User Recommendations:**
-- Provide clear and concrete recommendations regarding the next steps the user should take.
-- Include security suggestions such as not clicking on suspicious links, not opening attachments, reporting the message to appropriate authorities, etc.
-- If possible, suggest additional precautionary measures the user can take to protect their personal and financial information.
-</recommendations>
-Your response should be formatted exactly as specified above, using the <analysis>, <risk_assessment>, and <recommendations> tags. Ensure that each section is thoroughly and comprehensively filled out.
-        """
-    }
-    system_prompt = system_prompts.get(language, system_prompts['English'])
-    user_prompt = f"""Analyze the following email message for potential fraud:
-Email Content: "{content}"
-Sender Information: "{sender_info}"
 Additional Information:
 {additional_info}
@@ -350,7 +270,7 @@ Additional Information:
 Provide your analysis and conclusions following the guidelines above."""
     payload = {
-        "model": "Meta-Llama-3.1-8B-Instruct",
         "messages": [
             {"role": "system", "content": system_prompt},
             {"role": "user", "content": user_prompt}
@@ -382,39 +302,3 @@ Provide your analysis and conclusions following the guidelines above."""
     except Exception as e:
         logging.error(f"Błąd połączenia z API: {e}")
         return f"Błąd połączenia z API: {e}", "Błąd analizy.", "Błąd analizy."
-# Funkcja analizy stron internetowych
-def analyze_website(url, language):
-    """Analizuje zawartość strony internetowej."""
-    if not api_key:
-        logging.error("Brak klucza API.")
-        return "Brak klucza API.", "Brak klucza API."
-    try:
-        response = requests.get(url)
-        if response.status_code == 200:
-            content = response.text
-            logging.info(f"Zawartość strony {url} została pobrana pomyślnie.")
-            return content
-        else:
-            logging.error(f"Błąd podczas pobierania zawartości strony {url}: {response.status_code}")
-            return f"Błąd: {response.status_code}", "Błąd analizy strony.", "Błąd analizy strony."
-    except Exception as e:
-        logging.error(f"Błąd połączenia z {url}: {e}")
-        return f"Błąd połączenia z {url}: {e}", "Błąd analizy strony.", "Błąd analizy strony."
-def get_phone_info(phone_number):
-    """Weryfikuje numer telefonu i zwraca informacje o kraju i operatorze."""
-    try:
-        parsed_number = phonenumbers.parse(phone_number, None)
-        country = geocoder.description_for_number(parsed_number, 'pl')
-        operator = carrier.name_for_number(parsed_number, 'pl')
-        if not country:
-            country = "Nieznany"
-        if not operator:
-            operator = "Nieznany"
-        logging.info(f"Numer {phone_number} - Kraj: {country}, Operator: {operator}.")
-        return country, operator
-    except NumberParseException as e:
-        logging.error(f"Nie udało się przetworzyć numeru telefonu {phone_number}: {e}")
-        return "Nieznany", "Nieznany"

+# utils/functions.py
 import phonenumbers
+from phonenumbers import geocoder, carrier
 import re
 import requests
 import os
 from datetime import datetime
 import logging
 import json
+import pycountry  # Upewnij się, że zainstalowałeś tę bibliotekę: pip install pycountry
 # Konfiguracja logowania
 logging.basicConfig(
 HISTORY_FILE = os.path.join(DATA_DIR, 'history.json')
 STATS_FILE = os.path.join(DATA_DIR, 'stats.json')
 # Funkcje pomocnicze
 def load_json(file_path):
     """Ładuje dane z pliku JSON. Jeśli plik nie istnieje, zwraca pustą listę lub domyślny obiekt."""
     if not os.path.exists(file_path):
         json.dump(data, file, ensure_ascii=False, indent=4)
         logging.info(f"Dane zostały zapisane do {file_path}.")
 def add_fake_number(phone_number):
+    """
+    Dodaje numer telefonu do pliku fake_numbers.json jako fałszywy, jeśli jeszcze go tam nie ma.
+    """
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     if phone_number not in fake_numbers:
         fake_numbers.append(phone_number)
         return False
 def is_fake_number(phone_number):
+    """
+    Sprawdza, czy dany numer telefonu jest oznaczony jako fałszywy w pliku fake_numbers.json.
+    """
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     exists = phone_number in fake_numbers
     logging.info(f"Sprawdzanie numeru {phone_number}: {'znaleziony' if exists else 'nie znaleziony'}.")
     return exists
 def get_fake_numbers():
+    """
+    Pobiera listę fałszywych numerów z pliku fake_numbers.json.
+    """
     fake_numbers = load_json(FAKE_NUMBERS_FILE)
     return fake_numbers
+def add_to_history(message, phone_number, analysis, risk, recommendations):
+    """
+    Dodaje wpis do historii analiz w pliku history.json.
+    """
+    history = load_json(HISTORY_FILE)
+    history.append({
+        "timestamp": datetime.now().isoformat(),
+        "message": message,
+        "phone_number": phone_number,
+        "analysis": analysis,
+        "risk_assessment": risk,
+        "recommendations": recommendations
+    })
+    save_json(HISTORY_FILE, history)
+    logging.info(f"Dodano wpis do history.json dla numeru {phone_number}.")
+def get_history():
+    """
+    Pobiera historię analiz z pliku history.json jako listę słowników.
+    """
+    history = load_json(HISTORY_FILE)
+    logging.info("Historia analiz została pobrana pomyślnie.")
+    return history
+def update_stats(fraud_detected=False):
+    """
+    Aktualizuje statystyki analiz w pliku stats.json.
+    """
+    stats = load_json(STATS_FILE)
+    stats["total_analyses"] += 1
+    if fraud_detected:
+        stats["total_frauds_detected"] += 1
+    save_json(STATS_FILE, stats)
+    logging.info(f"Statystyki zostały zaktualizowane: Analiz {stats['total_analyses']}, Oszustw {stats['total_frauds_detected']}.")
+def get_stats():
+    """
+    Pobiera statystyki analiz z pliku stats.json.
+    """
+    stats = load_json(STATS_FILE)
+    logging.info("Statystyki zostały pobrane pomyślnie.")
+    return stats
+def get_phone_info(phone_number):
+    """
+    Weryfikuje numer telefonu i zwraca informacje o kraju i operatorze.
+    """
+    try:
+        parsed_number = phonenumbers.parse(phone_number, None)
+        country = geocoder.description_for_number(parsed_number, 'pl')  # Zmiana na 'pl' dla polskiego
+        operator = carrier.name_for_number(parsed_number, 'pl')  # Zmiana na 'pl' dla polskiego
+        if not country:
+            country = "Nieznany"
+        if not operator:
+            operator = "Nieznany"
+        logging.info(f"Numer {phone_number} - Kraj: {country}, Operator: {operator}.")
+        return country, operator
+    except phonenumbers.NumberParseException as e:
+        logging.error(f"Nie udało się przetworzyć numeru telefonu {phone_number}: {e}")
+        return "Nieznany", "Nieznany"
 def simple_checks(message, language):
+    """
+    Przeprowadza proste sprawdzenia heurystyczne wiadomości SMS.
+    """
     warnings = []
+    # Baza słów kluczowych (polski, niemiecki, angielski)
     scam_keywords = {
         'Polish': ['pieniądze', 'przelew', 'hasło', 'kod', 'nagroda', 'wygrana', 'pilne', 'pomoc', 'opłata', 'bank', 'karta', 'konto', 'logowanie', 'transakcja', 'weryfikacja', 'dane osobowe', 'szybka płatność', 'blokada konta', 'powiadomienie'],
         'German': ['Geld', 'Überweisung', 'Passwort', 'Code', 'Preis', 'Gewinn', 'dringend', 'Hilfe', 'Gebühr', 'Bank', 'Karte', 'Konto', 'Anmeldung', 'Transaktion', 'Verifizierung', 'persönliche Daten', 'schnelle Zahlung', 'Kontosperrung', 'Benachrichtigung'],
     }
     selected_keywords = scam_keywords.get(language, scam_keywords['English'])
     message_lower = message.lower()
     if any(keyword.lower() in message_lower for keyword in selected_keywords):
         warnings.append("Wiadomość zawiera prośbę o poufne informacje.")
     return warnings
+def analyze_message(message, phone_number, additional_info, api_key, language):
+    """
+    Analizuje wiadomość SMS za pomocą API SambaNova.
+    """
     if not api_key:
         logging.error("Brak klucza API.")
         return "Brak klucza API.", "Brak klucza API.", "Brak klucza API."
+    url = "https://api.sambanova.ai/v1/chat/completions"  # Upewnij się, że to poprawny URL
     headers = {
         "Authorization": f"Bearer {api_key}",
         "Content-Type": "application/json"
         """
     }
+    system_prompt = system_prompts.get(language, system_prompts['English'])  # Domyślnie angielski, jeśli język nie jest obsługiwany
     user_prompt = f"""Analyze the following message for potential fraud:
+Message: "{message}"
+Sender's Phone Number: "{phone_number}"
 Additional Information:
 {additional_info}
 Provide your analysis and conclusions following the guidelines above."""
     payload = {
+        "model": "Meta-Llama-3.1-8B-Instruct",  # Upewnij się, że to poprawny model API
         "messages": [
             {"role": "system", "content": system_prompt},
             {"role": "user", "content": user_prompt}
     except Exception as e:
         logging.error(f"Błąd połączenia z API: {e}")
         return f"Błąd połączenia z API: {e}", "Błąd analizy.", "Błąd analizy."