AA_TT2

Sleeping

App Files Files Community

ahm14 commited on Feb 18

Commit

5893c88

verified ·

1 Parent(s): e38265e

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -55

app.py CHANGED Viewed

@@ -90,6 +90,10 @@ def extract_tone_fallback(text):
 def extract_hashtags(text):
     return re.findall(r"#\w+", text)
 # Categorize frames into Major, Significant, and Minor based on frequency
 def categorize_frames(frame_list):
     frame_counter = Counter(frame_list)
@@ -98,9 +102,9 @@ def categorize_frames(frame_list):
     sorted_frames = sorted(frame_counter.items(), key=lambda x: x[1], reverse=True)
     for i, (frame, count) in enumerate(sorted_frames):
-        if i == 0:
             categorized_frames["Major Focus"].append(frame)
-        elif i < 3:
             categorized_frames["Significant Focus"].append(frame)
         else:
             categorized_frames["Minor Mention"].append(frame)
@@ -119,6 +123,16 @@ def extract_frames_fallback(text):
     return categorize_frames(detected_frames)
 # Extract captions from DOCX
 def extract_captions_from_docx(docx_file):
     doc = Document(docx_file)
@@ -133,17 +147,25 @@ def extract_captions_from_docx(docx_file):
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
-# Extract metadata from Excel file
-def extract_metadata_from_excel(excel_file):
-    try:
-        df = pd.read_excel(excel_file)
-        extracted_data = df.to_dict(orient="records")
-        return extracted_data
-    except Exception as e:
-        logging.error(f"Error processing Excel file: {e}")
-        return []
-# Create DOCX file in the required format
 def create_docx_from_data(extracted_data):
     doc = Document()
@@ -159,21 +181,14 @@ def create_docx_from_data(extracted_data):
             value = data.get(field, "N/A")
             doc.add_paragraph(f"**{field}:** {value}")
-        caption_text = data.get("Full Caption", "N/A")
-        doc.add_paragraph(f"**Caption:** {caption_text}")
-        language = data.get("Language", "N/A")
-        doc.add_paragraph(f"**Language:** {language}")
-        tone = ", ".join(data.get("Tone", ["N/A"]))
-        doc.add_paragraph(f"**Tone:** {tone}")
-        hashtags = ", ".join(data.get("Hashtags", []))
-        doc.add_paragraph(f"**Hashtags:** {hashtags}")
         frames = data.get("Frames", {})
         doc.add_paragraph("**Frames:**")
         for category, frame_list in frames.items():
             if frame_list:
                 doc.add_paragraph(f"  {category}: {', '.join(frame_list)}")
@@ -185,41 +200,16 @@ def create_docx_from_data(extracted_data):
 # Streamlit app
 st.title("AI-Powered Activism Message Analyzer")
-st.write("Enter text or upload a DOCX/Excel file for analysis:")
-input_text = st.text_area("Input Text", height=200)
 uploaded_docx = st.file_uploader("Upload a DOCX file", type=["docx"])
 uploaded_excel = st.file_uploader("Upload an Excel file", type=["xlsx"])
-output_data = []
-if uploaded_excel:
-    output_data = extract_metadata_from_excel(uploaded_excel)
-if input_text:
-    text_analysis = {
-        "Full Caption": input_text,
-        "Language": detect_language(input_text),
-        "Tone": extract_tone(input_text),
-        "Hashtags": extract_hashtags(input_text),
-        "Frames": extract_frames_fallback(input_text),
-    }
-    output_data.append(text_analysis)
-if uploaded_docx:
-    captions = extract_captions_from_docx(uploaded_docx)
-    for caption, text in captions.items():
-        text_analysis = {
-            "Full Caption": text,
-            "Language": detect_language(text),
-            "Tone": extract_tone(text),
-            "Hashtags": extract_hashtags(text),
-            "Frames": extract_frames_fallback(text),
-        }
-        output_data.append(text_analysis)
-if output_data:
-    docx_output = create_docx_from_data(output_data)
     docx_io = io.BytesIO()
     docx_output.save(docx_io)
     docx_io.seek(0)

 def extract_hashtags(text):
     return re.findall(r"#\w+", text)
+# Extract hashtags
+def extract_hashtags(text):
+    return re.findall(r"#\w+", text)
 # Categorize frames into Major, Significant, and Minor based on frequency
 def categorize_frames(frame_list):
     frame_counter = Counter(frame_list)
     sorted_frames = sorted(frame_counter.items(), key=lambda x: x[1], reverse=True)
     for i, (frame, count) in enumerate(sorted_frames):
+        if i == 0:
             categorized_frames["Major Focus"].append(frame)
+        elif i < 3:
             categorized_frames["Significant Focus"].append(frame)
         else:
             categorized_frames["Minor Mention"].append(frame)
     return categorize_frames(detected_frames)
+# Extract metadata from Excel file
+def extract_metadata_from_excel(excel_file):
+    try:
+        df = pd.read_excel(excel_file)
+        extracted_data = df.to_dict(orient="records")
+        return extracted_data
+    except Exception as e:
+        logging.error(f"Error processing Excel file: {e}")
+        return []
 # Extract captions from DOCX
 def extract_captions_from_docx(docx_file):
     doc = Document(docx_file)
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
+# Merge metadata and captions together
+def merge_metadata_with_captions(metadata, captions):
+    merged_data = []
+    for i, meta in enumerate(metadata):
+        post_number = f"Post {i+1}"
+        caption_text = captions.get(post_number, "No caption available")
+        post_data = meta.copy()
+        post_data["Full Caption"] = caption_text
+        post_data["Language"] = detect_language(caption_text)
+        post_data["Tone"] = extract_tone(caption_text)
+        post_data["Hashtags"] = extract_hashtags(caption_text)
+        post_data["Frames"] = extract_frames_fallback(caption_text)
+        merged_data.append(post_data)
+    return merged_data
+# Create DOCX file with correct formatting
 def create_docx_from_data(extracted_data):
     doc = Document()
             value = data.get(field, "N/A")
             doc.add_paragraph(f"**{field}:** {value}")
+        doc.add_paragraph(f"**Caption:** {data.get('Full Caption', 'N/A')}")
+        doc.add_paragraph(f"**Language:** {data.get('Language', 'N/A')}")
+        doc.add_paragraph(f"**Tone:** {', '.join(data.get('Tone', ['N/A']))}")
+        doc.add_paragraph(f"**Hashtags:** {', '.join(data.get('Hashtags', []))}")
         frames = data.get("Frames", {})
         doc.add_paragraph("**Frames:**")
         for category, frame_list in frames.items():
             if frame_list:
                 doc.add_paragraph(f"  {category}: {', '.join(frame_list)}")
 # Streamlit app
 st.title("AI-Powered Activism Message Analyzer")
 uploaded_docx = st.file_uploader("Upload a DOCX file", type=["docx"])
 uploaded_excel = st.file_uploader("Upload an Excel file", type=["xlsx"])
+if uploaded_excel and uploaded_docx:
+    excel_metadata = extract_metadata_from_excel(uploaded_excel)
+    docx_captions = extract_captions_from_docx(uploaded_docx)
+    merged_data = merge_metadata_with_captions(excel_metadata, docx_captions)
+    docx_output = create_docx_from_data(merged_data)
     docx_io = io.BytesIO()
     docx_output.save(docx_io)
     docx_io.seek(0)