AA_T5

Sleeping

App Files Files Community

ahm14 commited on Feb 18

Commit

3b8e826

verified ·

1 Parent(s): 409aff1

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -27

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from langchain_core.output_parsers import StrOutputParser
 from langchain_core.prompts import ChatPromptTemplate
 from transformers import pipeline
 # Load environment variables
 load_dotenv()
@@ -32,6 +33,20 @@ llm = ChatGroq(temperature=0.5, groq_api_key=GROQ_API_KEY, model_name="llama3-8b
 # Download required NLTK resources
 nltk.download("punkt")
 # Frame categories with keywords
 frame_categories = {
     "Human Rights & Justice": ["rights", "law", "justice", "legal", "humanitarian"],
@@ -52,7 +67,7 @@ def detect_language(text):
         logging.error(f"Error detecting language: {e}")
         return "unknown"
-# Extract tone using Groq API
 def extract_tone(text):
     try:
         response = llm.chat([{"role": "system", "content": "Analyze the tone of the following text and provide descriptive tone labels."},
@@ -60,7 +75,16 @@ def extract_tone(text):
         return response["choices"][0]["message"]["content"].split(", ")
     except Exception as e:
         logging.error(f"Groq API error: {e}")
-        return ["Neutral"]
 # Extract hashtags
 def extract_hashtags(text):
@@ -113,25 +137,7 @@ def extract_captions_from_docx(docx_file):
 def extract_metadata_from_excel(excel_file):
     try:
         df = pd.read_excel(excel_file)
-        required_columns = ["Date", "Media Type", "Number of Pictures", "Number of Videos", "Number of Audios", "Likes", "Comments", "Tagged Audience"]
-        if not all(col in df.columns for col in required_columns):
-            st.error("Excel file is missing required columns.")
-            return []
-        extracted_data = []
-        for index, row in df.iterrows():
-            post_data = {
-                "Post Number": f"Post {index + 1}",
-                "Date of Post": row.get("Date", "N/A"),
-                "Media Type": row.get("Media Type", "N/A"),
-                "Number of Pictures": row.get("Number of Pictures", 0),
-                "Number of Videos": row.get("Number of Videos", 0),
-                "Number of Audios": row.get("Number of Audios", 0),
-                "Likes": row.get("Likes", 0),
-                "Comments": row.get("Comments", 0),
-                "Tagged Audience": row.get("Tagged Audience", "No"),
-            }
-            extracted_data.append(post_data)
         return extracted_data
     except Exception as e:
         logging.error(f"Error processing Excel file: {e}")
@@ -140,22 +146,39 @@ def extract_metadata_from_excel(excel_file):
 # Merge metadata with generated analysis
 def merge_metadata_with_generated_data(generated_data, excel_metadata):
     for post_data in excel_metadata:
-        post_number = post_data["Post Number"]
         if post_number in generated_data:
             generated_data[post_number].update(post_data)
         else:
-            generated_data[post_number] = post_data  # Preserve metadata even if no text caption
     return generated_data
-# Create DOCX file from extracted data
 def create_docx_from_data(extracted_data):
     doc = Document()
     for post_number, data in extracted_data.items():
         doc.add_heading(post_number, level=1)
-        for key, value in data.items():
             doc.add_paragraph(f"**{key}:** {value}")
-        doc.add_paragraph("\n")
     return doc
 # Streamlit app
@@ -199,3 +222,4 @@ if output_data:
     docx_output.save(docx_io)
     docx_io.seek(0)
     st.download_button("Download Merged Analysis as DOCX", data=docx_io, file_name="merged_analysis.docx")

 from langchain_core.prompts import ChatPromptTemplate
 from transformers import pipeline
 # Load environment variables
 load_dotenv()
 # Download required NLTK resources
 nltk.download("punkt")
+# Tone categories for fallback method
+tone_categories = {
+    "Emotional": ["urgent", "violence", "disappearances", "forced", "killing", "crisis", "concern"],
+    "Harsh": ["corrupt", "oppression", "failure", "repression", "exploit", "unjust", "authoritarian"],
+    "Somber": ["tragedy", "loss", "pain", "sorrow", "mourning", "grief", "devastation"],
+    "Motivational": ["rise", "resist", "mobilize", "inspire", "courage", "change", "determination"],
+    "Informative": ["announcement", "event", "scheduled", "update", "details", "protest", "statement"],
+    "Positive": ["progress", "unity", "hope", "victory", "together", "solidarity", "uplifting"],
+    "Angry": ["rage", "injustice", "fury", "resentment", "outrage", "betrayal"],
+    "Fearful": ["threat", "danger", "terror", "panic", "risk", "warning"],
+    "Sarcastic": ["brilliant", "great job", "amazing", "what a surprise", "well done", "as expected"],
+    "Hopeful": ["optimism", "better future", "faith", "confidence", "looking forward"]
+}
 # Frame categories with keywords
 frame_categories = {
     "Human Rights & Justice": ["rights", "law", "justice", "legal", "humanitarian"],
         logging.error(f"Error detecting language: {e}")
         return "unknown"
+# Extract tone using Groq API (or fallback method)
 def extract_tone(text):
     try:
         response = llm.chat([{"role": "system", "content": "Analyze the tone of the following text and provide descriptive tone labels."},
         return response["choices"][0]["message"]["content"].split(", ")
     except Exception as e:
         logging.error(f"Groq API error: {e}")
+        return extract_tone_fallback(text)
+# Fallback method for tone extraction
+def extract_tone_fallback(text):
+    detected_tones = set()
+    text_lower = text.lower()
+    for category, keywords in tone_categories.items():
+        if any(word in text_lower for word in keywords):
+            detected_tones.add(category)
+    return list(detected_tones) if detected_tones else ["Neutral"]
 # Extract hashtags
 def extract_hashtags(text):
 def extract_metadata_from_excel(excel_file):
     try:
         df = pd.read_excel(excel_file)
+        extracted_data = df.to_dict(orient="records")
         return extracted_data
     except Exception as e:
         logging.error(f"Error processing Excel file: {e}")
 # Merge metadata with generated analysis
 def merge_metadata_with_generated_data(generated_data, excel_metadata):
     for post_data in excel_metadata:
+        post_number = f"Post {post_data.get('Post Number', len(generated_data) + 1)}"
         if post_number in generated_data:
             generated_data[post_number].update(post_data)
         else:
+            generated_data[post_number] = post_data
     return generated_data
+# Create DOCX file matching the uploaded format
 def create_docx_from_data(extracted_data):
     doc = Document()
     for post_number, data in extracted_data.items():
         doc.add_heading(post_number, level=1)
+        ordered_keys = [
+            "Post Number", "Date of Post", "Media Type", "Number of Pictures",
+            "Number of Videos", "Number of Audios", "Likes", "Comments", "Tagged Audience",
+            "Full Caption", "Language", "Tone", "Hashtags", "Frames"
+        ]
+        for key in ordered_keys:
+            value = data.get(key, "N/A")
+            if key in ["Tone", "Hashtags"]:
+                value = ", ".join(value) if isinstance(value, list) else value
+            elif key == "Frames" and isinstance(value, dict):
+                frame_text = "\n".join([f"  {category}: {', '.join(frames)}" for category, frames in value.items() if frames])
+                value = f"\n{frame_text}" if frame_text else "N/A"
             doc.add_paragraph(f"**{key}:** {value}")
+        doc.add_paragraph("\n")
     return doc
 # Streamlit app
     docx_output.save(docx_io)
     docx_io.seek(0)
     st.download_button("Download Merged Analysis as DOCX", data=docx_io, file_name="merged_analysis.docx")