Spaces:

Ashendilantha
/

News_Classification

Sleeping

App Files Files Community

Ashendilantha commited on Mar 30

Commit

47aaa4b

verified ·

1 Parent(s): 42bdc4d

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -9

app.py CHANGED Viewed

@@ -1,18 +1,15 @@
 import streamlit as st
 import pandas as pd
-import numpy as np
 import re
-import nltk
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
-import torch
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
-import requests
-from io import BytesIO
 # Set page configuration
-st.set_page_config(page_title="News Classifier", page_icon="📰")
 # Download required NLTK resources
 @st.cache_resource
@@ -69,7 +66,7 @@ def preprocess_text(text):
     return cleaned_text
-# Function to classify news articles with batch processing
 def classify_news(df, model, tokenizer):
     # Preprocess the text
     df['cleaned_content'] = df['content'].apply(preprocess_text)
@@ -97,6 +94,26 @@ def classify_news(df, model, tokenizer):
     return df
 # Main app
 def main():
     st.title("News Classifier 📢")
@@ -120,7 +137,7 @@ def main():
                 # Classify the text
                 with st.spinner("Classifying the article..."):
-                    category, confidence = classify_text(text_input, model, tokenizer)
                     st.write(f"*Predicted Category:* {category}")
                     st.write(f"*Confidence Level:* {confidence}%")
             else:
@@ -200,4 +217,3 @@ def main():
 if __name__ == "__main__":
     main()

 import streamlit as st
 import pandas as pd
+import torch
 import re
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
+import nltk
 # Set page configuration
+st.set_page_config(page_title="News Analysis App", layout="wide")
 # Download required NLTK resources
 @st.cache_resource
     return cleaned_text
+# Function to classify news articles (bulk processing)
 def classify_news(df, model, tokenizer):
     # Preprocess the text
     df['cleaned_content'] = df['content'].apply(preprocess_text)
     return df
+# Function for single article classification
+def classify_single_article(text, model, tokenizer):
+    # Preprocess the text
+    cleaned_text = preprocess_text(text)
+    # Prepare for classification
+    inputs = tokenizer(cleaned_text, padding=True, truncation=True, max_length=512, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(**inputs)
+        logits = outputs.logits
+        prediction = torch.argmax(logits, dim=1).item()
+    # Map numeric prediction back to class label
+    id2label = model.config.id2label
+    category = id2label[prediction]
+    confidence = torch.nn.functional.softmax(logits, dim=1).max().item() * 100
+    return category, round(confidence, 2)
 # Main app
 def main():
     st.title("News Classifier 📢")
                 # Classify the text
                 with st.spinner("Classifying the article..."):
+                    category, confidence = classify_single_article(text_input, model, tokenizer)
                     st.write(f"*Predicted Category:* {category}")
                     st.write(f"*Confidence Level:* {confidence}%")
             else:
 if __name__ == "__main__":
     main()