AA_TT2

Sleeping

App Files Files Community

ahm14 commited on Mar 2

Commit

74033b7

verified ·

1 Parent(s): bba1b37

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -45

app.py CHANGED Viewed

@@ -65,7 +65,10 @@ frame_categories = {
     "Human Rights Advocacy": ["human rights", "violations", "honor killing", "workplace discrimination", "law reform"]
 }
-# Detect language
 def detect_language(text):
     try:
         return detect(text)
@@ -73,7 +76,6 @@ def detect_language(text):
         logging.error(f"Error detecting language: {e}")
         return "unknown"
-# Extract tone using Groq API (or fallback method)
 def extract_tone(text):
     try:
         response = llm.chat([{"role": "system", "content": "Analyze the tone of the following text and provide descriptive tone labels."},
@@ -83,7 +85,6 @@ def extract_tone(text):
         logging.error(f"Groq API error: {e}")
         return extract_tone_fallback(text)
-# Fallback method for tone extraction
 def extract_tone_fallback(text):
     detected_tones = set()
     text_lower = text.lower()
@@ -92,49 +93,26 @@ def extract_tone_fallback(text):
             detected_tones.add(category)
     return list(detected_tones) if detected_tones else ["Neutral"]
-# Extract hashtags
 def extract_hashtags(text):
     return re.findall(r"#\w+", text)
 # -------------------------------------------------------------------
-# New functions for frame categorization and display
 # -------------------------------------------------------------------
 def get_frame_category_mapping(text):
     """
-    Returns a mapping of every frame (from frame_categories) to one of the four categories.
-    Detected frames are assigned a focus level based on keyword frequency:
-      - Top detected: "Major Focus"
-      - Next up to two: "Significant Focus"
-      - Remaining detected: "Minor Mention"
-    Frames not detected get "Not Applicable".
     """
-    text_lower = text.lower()
-    # Calculate frequency for each frame
-    frame_freq = {}
-    for frame, keywords in frame_categories.items():
-        freq = sum(1 for word in keywords if word in text_lower)
-        frame_freq[frame] = freq
-    # Identify detected frames (frequency > 0) and sort descending
-    detected = [(frame, freq) for frame, freq in frame_freq.items() if freq > 0]
-    detected.sort(key=lambda x: x[1], reverse=True)
-    category_mapping = {}
-    if detected:
-        # Highest frequency frame as Major Focus
-        category_mapping[detected[0][0]] = "Major Focus"
-        # Next up to two frames as Significant Focus
-        for frame, _ in detected[1:3]:
-            category_mapping[frame] = "Significant Focus"
-        # Remaining detected frames as Minor Mention
-        for frame, _ in detected[3:]:
-            category_mapping[frame] = "Minor Mention"
-    # For frames not detected, assign Not Applicable
     for frame in frame_categories.keys():
-        if frame not in category_mapping:
-            category_mapping[frame] = "Not Applicable"
-    return category_mapping
 def format_frame_categories_table(mapping):
     """
@@ -158,7 +136,6 @@ def format_frame_categories_table(mapping):
 # Existing functions for file processing
 # -------------------------------------------------------------------
-# Extract captions from DOCX
 def extract_captions_from_docx(docx_file):
     doc = Document(docx_file)
     captions = {}
@@ -172,7 +149,6 @@ def extract_captions_from_docx(docx_file):
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
-# Extract metadata from Excel file
 def extract_metadata_from_excel(excel_file):
     try:
         df = pd.read_excel(excel_file)
@@ -182,7 +158,6 @@ def extract_metadata_from_excel(excel_file):
         logging.error(f"Error processing Excel file: {e}")
         return []
-# Merge metadata with generated analysis
 def merge_metadata_with_generated_data(generated_data, excel_metadata):
     for post_data in excel_metadata:
         post_number = f"Post {post_data.get('Post Number', len(generated_data) + 1)}"
@@ -192,7 +167,6 @@ def merge_metadata_with_generated_data(generated_data, excel_metadata):
             generated_data[post_number] = post_data
     return generated_data
-# Create DOCX file matching the uploaded format
 def create_docx_from_data(extracted_data):
     doc = Document()
     for post_number, data in extracted_data.items():
@@ -206,7 +180,6 @@ def create_docx_from_data(extracted_data):
             value = data.get(key, "N/A")
             if key in ["Tone", "Hashtags"]:
                 value = ", ".join(value) if isinstance(value, list) else value
-            # For Frames, simply add the table text as is.
             doc.add_paragraph(f"**{key}:** {value}")
         doc.add_paragraph("\n")
     return doc
@@ -225,7 +198,6 @@ uploaded_excel = st.file_uploader("Upload an Excel file", type=["xlsx"])
 output_data = {}
 if input_text:
-    # Process manual input text
     frame_mapping = get_frame_category_mapping(input_text)
     frames_table = format_frame_categories_table(frame_mapping)
     output_data["Manual Input"] = {
@@ -233,7 +205,7 @@ if input_text:
         "Language": detect_language(input_text),
         "Tone": extract_tone(input_text),
         "Hashtags": extract_hashtags(input_text),
-        "Frames": frames_table,  # Markdown table displaying frame categories
     }
 if uploaded_docx:
@@ -253,7 +225,6 @@ if uploaded_excel:
     excel_metadata = extract_metadata_from_excel(uploaded_excel)
     output_data = merge_metadata_with_generated_data(output_data, excel_metadata)
-# Display results in collapsible sections
 if output_data:
     for post_number, data in output_data.items():
         with st.expander(post_number):
@@ -263,7 +234,6 @@ if output_data:
                 else:
                     st.write(f"**{key}:** {value}")
-# Generate DOCX output for download
 if output_data:
     docx_output = create_docx_from_data(output_data)
     docx_io = io.BytesIO()

     "Human Rights Advocacy": ["human rights", "violations", "honor killing", "workplace discrimination", "law reform"]
 }
+# Initialize zero-shot classifier for qualitative frame categorization
+classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
+candidate_labels = ["Major Focus", "Significant Focus", "Minor Mention", "Not Applicable"]
 def detect_language(text):
     try:
         return detect(text)
         logging.error(f"Error detecting language: {e}")
         return "unknown"
 def extract_tone(text):
     try:
         response = llm.chat([{"role": "system", "content": "Analyze the tone of the following text and provide descriptive tone labels."},
         logging.error(f"Groq API error: {e}")
         return extract_tone_fallback(text)
 def extract_tone_fallback(text):
     detected_tones = set()
     text_lower = text.lower()
             detected_tones.add(category)
     return list(detected_tones) if detected_tones else ["Neutral"]
 def extract_hashtags(text):
     return re.findall(r"#\w+", text)
 # -------------------------------------------------------------------
+# New functions for qualitative frame categorization using zero-shot classification
 # -------------------------------------------------------------------
 def get_frame_category_mapping(text):
     """
+    For each frame category defined in frame_categories, this function uses a zero-shot classification
+    approach to qualitatively assess how strongly the text discusses the frame. The classifier returns one of:
+    "Major Focus", "Significant Focus", "Minor Mention", or "Not Applicable".
     """
+    mapping = {}
     for frame in frame_categories.keys():
+        hypothesis_template = f"This text is {{}} about {frame}."
+        result = classifier(text, candidate_labels=candidate_labels, hypothesis_template=hypothesis_template)
+        best_label = result["labels"][0]  # select the highest scoring label
+        mapping[frame] = best_label
+    return mapping
 def format_frame_categories_table(mapping):
     """
 # Existing functions for file processing
 # -------------------------------------------------------------------
 def extract_captions_from_docx(docx_file):
     doc = Document(docx_file)
     captions = {}
             captions[current_post].append(text)
     return {post: " ".join(lines) for post, lines in captions.items() if lines}
 def extract_metadata_from_excel(excel_file):
     try:
         df = pd.read_excel(excel_file)
         logging.error(f"Error processing Excel file: {e}")
         return []
 def merge_metadata_with_generated_data(generated_data, excel_metadata):
     for post_data in excel_metadata:
         post_number = f"Post {post_data.get('Post Number', len(generated_data) + 1)}"
             generated_data[post_number] = post_data
     return generated_data
 def create_docx_from_data(extracted_data):
     doc = Document()
     for post_number, data in extracted_data.items():
             value = data.get(key, "N/A")
             if key in ["Tone", "Hashtags"]:
                 value = ", ".join(value) if isinstance(value, list) else value
             doc.add_paragraph(f"**{key}:** {value}")
         doc.add_paragraph("\n")
     return doc
 output_data = {}
 if input_text:
     frame_mapping = get_frame_category_mapping(input_text)
     frames_table = format_frame_categories_table(frame_mapping)
     output_data["Manual Input"] = {
         "Language": detect_language(input_text),
         "Tone": extract_tone(input_text),
         "Hashtags": extract_hashtags(input_text),
+        "Frames": frames_table,
     }
 if uploaded_docx:
     excel_metadata = extract_metadata_from_excel(uploaded_excel)
     output_data = merge_metadata_with_generated_data(output_data, excel_metadata)
 if output_data:
     for post_number, data in output_data.items():
         with st.expander(post_number):
                 else:
                     st.write(f"**{key}:** {value}")
 if output_data:
     docx_output = create_docx_from_data(output_data)
     docx_io = io.BytesIO()