TEST-GIZ-Project-Search

Sleeping

App Files Files Community

annikwag commited on Mar 4

Commit

fdfd226

verified ·

1 Parent(s): 4def7e8

Update app.py

Browse files

Files changed (1) hide show

app.py +173 -168

app.py CHANGED Viewed

@@ -219,11 +219,12 @@ with col_about:
     with st.expander("About"):
         st.markdown(
             """
             **This app is a prototype for testing purposes.**
             The intended use is to explore AI-generated answers using publicly available project data from the German International Cooperation Society (GIZ) as of 23rd February 2025.
             **Please do NOT enter sensitive or personal information.**
             Note: The generated answers are AI-generated and may be wrong or misleading.
-            """)
 ###########################################
 # Query input and budget slider (Change 9)
@@ -313,173 +314,177 @@ with col5:
 # Checkbox for exact matches
 show_exact_matches = st.checkbox("Show only exact matches", value=False)
-###########################################
-# Run the search and apply filters
-###########################################
-results = hybrid_search(client, var, collection_name, limit=500)
-semantic_all = results[0]
-lexical_all = results[1]
-semantic_all = [r for r in semantic_all if len(r.payload["page_content"]) >= 5]
-lexical_all = [r for r in lexical_all if len(r.payload["page_content"]) >= 5]
-semantic_thresholded = [r for r in semantic_all if r.score >= 0.0]
-# Pass the budget filter (min_budget) into filter_results
-filtered_semantic = filter_results(semantic_thresholded, country_filter, region_filter, end_year_range, crs_filter, min_budget)
-filtered_lexical = filter_results(lexical_all, country_filter, region_filter, end_year_range, crs_filter, min_budget)
-filtered_semantic_no_dupe = remove_duplicates(filtered_semantic)
-filtered_lexical_no_dupe = remove_duplicates(filtered_lexical)
-def format_currency(value):
-    try:
-        return f"€{int(float(value)):,}"
-    except (ValueError, TypeError):
-        return value
-###########################################
-# Display Results (Lexical and Semantic)
-###########################################
-# --- Lexical Results Branch ---
-if show_exact_matches:
-    st.write("Showing **Top 15 Lexical Search results**")
-    query_substring = var.strip().lower()
-    lexical_substring_filtered = [r for r in lexical_all if query_substring in r.payload["page_content"].lower()]
-    filtered_lexical = filter_results(lexical_substring_filtered, country_filter, region_filter, end_year_range, crs_filter, min_budget)
     filtered_lexical_no_dupe = remove_duplicates(filtered_lexical)
-    if not filtered_lexical_no_dupe:
-        st.write('No exact matches, consider unchecking "Show only exact matches"')
-    else:
-        top_results = filtered_lexical_no_dupe[:10]
-        rag_answer = get_rag_answer(var, top_results)
-        # Use the query as heading; increase size and center it.
-        st.markdown(f"<h2 style='text-align:center; font-size:1.5em;'>{var}</h2>", unsafe_allow_html=True)
-        st.write(rag_answer)
-        st.divider()
-        for res in top_results:
-            metadata = res.payload.get('metadata', {})
-            if "title" not in metadata:
-                metadata["title"] = compute_title(metadata)
-            # Highlight query matches in title (rendered with HTML)
-            title_html = highlight_query(metadata["title"], var) if var.strip() else metadata["title"]
-            st.markdown(f"#### {title_html}", unsafe_allow_html=True)
-            # Build snippet from objectives and description
-            objective = metadata.get("objective", "None")
-            desc_en = metadata.get("description.en", "").strip()
-            desc_de = metadata.get("description.de", "").strip()
-            description = desc_en if desc_en != "" else desc_de
-            full_snippet = f"{description}"
-            words = full_snippet.split()
-            preview_word_count = 90
-            preview_text = " ".join(words[:preview_word_count])
-            remainder_text = " ".join(words[preview_word_count:])
-            st.markdown(highlight_query(preview_text, var), unsafe_allow_html=True)
-            # Create two columns: left for "Show more" (remainder text) and right for additional details.
-            col_left, col_right = st.columns(2)
-            with col_left:
-                if remainder_text:
-                    with st.expander("Show more"):
-                        st.write(remainder_text)
-            with col_right:
-                # Format additional text with line breaks using <br>
-                start_year = metadata.get('start_year', None)
-                end_year = metadata.get('end_year', None)
-                start_year_str = extract_year(start_year) if start_year else "Unknown"
-                end_year_str = extract_year(end_year) if end_year else "Unknown"
-                total_project = metadata.get('total_project', "Unknown")
-                total_volume = metadata.get('total_volume', "Unknown")
-                formatted_project_budget = format_currency(total_project)
-                formatted_total_volume = format_currency(total_volume)
-                try:
-                    c_list = json.loads(metadata.get('countries', "[]").replace("'", '"'))
-                except json.JSONDecodeError:
-                    c_list = []
-                matched_countries = []
-                for code in c_list:
-                    if len(code) == 2:
-                        resolved_name = get_country_name(code.upper(), region_df)
-                        if resolved_name.upper() != code.upper():
-                            matched_countries.append(resolved_name)
-                crs_key = metadata.get("crs_key", "").strip()
-                new_crs_value = lookup_crs_value(crs_key)
-                crs_combined = f"{crs_key}: {new_crs_value}" if crs_key else "Unknown"
-                client_name = metadata.get('client', 'Unknown Client')
-                contact = metadata.get("contact", "").strip()
-                additional_text = (
-                    f"Objective: **{objective}**<br>"
-                    f"Commissioned by **{client_name}**<br>"
-                    f"Projekt duration **{start_year_str}-{end_year_str}**<br>"
-                    f"Budget: Project: **{formatted_project_budget}**, Total volume: **{formatted_total_volume}**<br>"
-                    f"Country: **{', '.join(matched_countries)}**<br>"
-                    f"Sector: **{crs_combined}**"
-                )
-                if contact and contact.lower() != "[email protected]":
-                    additional_text += f"<br>Contact: **{contact}**"
-                st.markdown(additional_text, unsafe_allow_html=True)
             st.divider()
-# --- Semantic Results Branch ---
-else:
-    if not filtered_semantic_no_dupe:
-        st.write("No relevant results found.")
     else:
-        top_results = filtered_semantic_no_dupe[:10]
-        rag_answer = get_rag_answer(var, top_results)
-        st.markdown(f"<h2 style='text-align:center; font-size:2.5em;'>{var}</h2>", unsafe_allow_html=True)
-        st.write(rag_answer)
-        st.divider()
-        st.write("Showing **Top 15 Semantic Search results**")
-        for res in top_results:
-            metadata = res.payload.get('metadata', {})
-            if "title" not in metadata:
-                metadata["title"] = compute_title(metadata)
-            st.markdown(f"#### {metadata['title']}")
-            objective = metadata.get("objective", "")
-            desc_en = metadata.get("description.en", "").strip()
-            desc_de = metadata.get("description.de", "").strip()
-            description = desc_en if desc_en != "" else desc_de
-            full_snippet = f"{description}"
-            words = full_snippet.split()
-            preview_word_count = 90
-            preview_text = " ".join(words[:preview_word_count])
-            remainder_text = " ".join(words[preview_word_count:])
-            st.write(preview_text)
-            col_left, col_right = st.columns(2)
-            with col_left:
-                if remainder_text:
-                    with st.expander("Show more"):
-                        st.write(remainder_text)
-            with col_right:
-                start_year = metadata.get('start_year', None)
-                end_year = metadata.get('end_year', None)
-                start_year_str = extract_year(start_year) if start_year else "Unknown"
-                end_year_str = extract_year(end_year) if end_year else "Unknown"
-                total_project = metadata.get('total_project', "Unknown")
-                total_volume = metadata.get('total_volume', "Unknown")
-                formatted_project_budget = format_currency(total_project)
-                formatted_total_volume = format_currency(total_volume)
-                try:
-                    c_list = json.loads(metadata.get('countries', "[]").replace("'", '"'))
-                except json.JSONDecodeError:
-                    c_list = []
-                matched_countries = []
-                for code in c_list:
-                    if len(code) == 2:
-                        resolved_name = get_country_name(code.upper(), region_df)
-                        if resolved_name.upper() != code.upper():
-                            matched_countries.append(resolved_name)
-                crs_key = metadata.get("crs_key", "").strip()
-                new_crs_value = lookup_crs_value(crs_key)
-                crs_combined = f"{crs_key}: {new_crs_value}" if crs_key else "Unknown"
-                client_name = metadata.get('client', 'Unknown Client')
-                contact = metadata.get("contact", "").strip()
-                additional_text = (
-                    f"Objective: **{objective}**<br>"
-                    f"Commissioned by **{client_name}**<br>"
-                    f"Projekt duration **{start_year_str}-{end_year_str}**<br>"
-                    f"Budget: Project: **{formatted_project_budget}**, Total volume: **{formatted_total_volume}**<br>"
-                    f"Country: **{', '.join(matched_countries)}**<br>"
-                    f"Sector: **{crs_combined}**"
-                )
-                if contact and contact.lower() != "[email protected]":
-                    additional_text += f"<br>Contact: **{contact}**"
-                st.markdown(additional_text, unsafe_allow_html=True)
-            st.divider()

     with st.expander("About"):
         st.markdown(
             """
+            ℹ️ **About:**
             **This app is a prototype for testing purposes.**
             The intended use is to explore AI-generated answers using publicly available project data from the German International Cooperation Society (GIZ) as of 23rd February 2025.
             **Please do NOT enter sensitive or personal information.**
             Note: The generated answers are AI-generated and may be wrong or misleading.
+            """, unsafe_allow_html=True)
 ###########################################
 # Query input and budget slider (Change 9)
 # Checkbox for exact matches
 show_exact_matches = st.checkbox("Show only exact matches", value=False)
+if not var.strip():
+    st.info("Please enter a query to see results.")
+else:
+    ###########################################
+    # Run the search and apply filters
+    ###########################################
+    results = hybrid_search(client, var, collection_name, limit=500)
+    semantic_all = results[0]
+    lexical_all = results[1]
+    semantic_all = [r for r in semantic_all if len(r.payload["page_content"]) >= 5]
+    lexical_all = [r for r in lexical_all if len(r.payload["page_content"]) >= 5]
+    semantic_thresholded = [r for r in semantic_all if r.score >= 0.0]
+    # Pass the budget filter (min_budget) into filter_results
+    filtered_semantic = filter_results(semantic_thresholded, country_filter, region_filter, end_year_range, crs_filter, min_budget)
+    filtered_lexical = filter_results(lexical_all, country_filter, region_filter, end_year_range, crs_filter, min_budget)
+    filtered_semantic_no_dupe = remove_duplicates(filtered_semantic)
     filtered_lexical_no_dupe = remove_duplicates(filtered_lexical)
+    def format_currency(value):
+        try:
+            return f"€{int(float(value)):,}"
+        except (ValueError, TypeError):
+            return value
+    ###########################################
+    # Display Results (Lexical and Semantic)
+    ###########################################
+    # --- Lexical Results Branch ---
+    if show_exact_matches:
+        st.write("Showing **Top 15 Lexical Search results**")
+        query_substring = var.strip().lower()
+        lexical_substring_filtered = [r for r in lexical_all if query_substring in r.payload["page_content"].lower()]
+        filtered_lexical = filter_results(lexical_substring_filtered, country_filter, region_filter, end_year_range, crs_filter, min_budget)
+        filtered_lexical_no_dupe = remove_duplicates(filtered_lexical)
+        if not filtered_lexical_no_dupe:
+            st.write('No exact matches, consider unchecking "Show only exact matches"')
+        else:
+            top_results = filtered_lexical_no_dupe[:10]
+            rag_answer = get_rag_answer(var, top_results)
+            # Use the query as heading; increase size and center it.
+            st.markdown(f"<h2 style='text-align:center; font-size:1.5em;'>{var}</h2>", unsafe_allow_html=True)
+            st.write(rag_answer)
             st.divider()
+            for res in top_results:
+                metadata = res.payload.get('metadata', {})
+                if "title" not in metadata:
+                    metadata["title"] = compute_title(metadata)
+                # Highlight query matches in title (rendered with HTML)
+                title_html = highlight_query(metadata["title"], var) if var.strip() else metadata["title"]
+                st.markdown(f"#### {title_html}", unsafe_allow_html=True)
+                # Build snippet from objectives and description
+                objective = metadata.get("objective", "None")
+                desc_en = metadata.get("description.en", "").strip()
+                desc_de = metadata.get("description.de", "").strip()
+                description = desc_en if desc_en != "" else desc_de
+                full_snippet = f"{description}"
+                words = full_snippet.split()
+                preview_word_count = 90
+                preview_text = " ".join(words[:preview_word_count])
+                remainder_text = " ".join(words[preview_word_count:])
+                # Create two columns: left for full description and right for additional details.
+                col_left, col_right = st.columns(2)
+                with col_left:
+                    # Combine preview and remainder into one full description block.
+                    full_description = preview_text + (" " + remainder_text if remainder_text else "")
+                    st.markdown(highlight_query(full_description, var), unsafe_allow_html=True)
+                with col_right:
+                    # Format additional text with line breaks using <br>
+                    start_year = metadata.get('start_year', None)
+                    end_year = metadata.get('end_year', None)
+                    start_year_str = extract_year(start_year) if start_year else "Unknown"
+                    end_year_str = extract_year(end_year) if end_year else "Unknown"
+                    total_project = metadata.get('total_project', "Unknown")
+                    total_volume = metadata.get('total_volume', "Unknown")
+                    formatted_project_budget = format_currency(total_project)
+                    formatted_total_volume = format_currency(total_volume)
+                    try:
+                        c_list = json.loads(metadata.get('countries', "[]").replace("'", '"'))
+                    except json.JSONDecodeError:
+                        c_list = []
+                    matched_countries = []
+                    for code in c_list:
+                        if len(code) == 2:
+                            resolved_name = get_country_name(code.upper(), region_df)
+                            if resolved_name.upper() != code.upper():
+                                matched_countries.append(resolved_name)
+                    crs_key = metadata.get("crs_key", "").strip()
+                    new_crs_value = lookup_crs_value(crs_key)
+                    crs_combined = f"{crs_key}: {new_crs_value}" if crs_key else "Unknown"
+                    client_name = metadata.get('client', 'Unknown Client')
+                    contact = metadata.get("contact", "").strip()
+                    additional_text = (
+                        f"Objective: **{objective}**<br>"
+                        f"Commissioned by **{client_name}**<br>"
+                        f"Projekt duration **{start_year_str}-{end_year_str}**<br>"
+                        f"Budget: Project: **{formatted_project_budget}**, Total volume: **{formatted_total_volume}**<br>"
+                        f"Country: **{', '.join(matched_countries)}**<br>"
+                        f"Sector: **{crs_combined}**"
+                    )
+                    if contact and contact.lower() != "[email protected]":
+                        additional_text += f"<br>Contact: **{contact}**"
+                    st.markdown(additional_text, unsafe_allow_html=True)
+                st.divider()
+    # --- Semantic Results Branch ---
     else:
+        if not filtered_semantic_no_dupe:
+            st.write("No relevant results found.")
+        else:
+            top_results = filtered_semantic_no_dupe[:10]
+            rag_answer = get_rag_answer(var, top_results)
+            st.markdown(f"<h2 style='text-align:center; font-size:2.5em;'>{var}</h2>", unsafe_allow_html=True)
+            st.write(rag_answer)
+            st.divider()
+            st.write("Showing **Top 15 Semantic Search results**")
+            for res in top_results:
+                metadata = res.payload.get('metadata', {})
+                if "title" not in metadata:
+                    metadata["title"] = compute_title(metadata)
+                st.markdown(f"#### {metadata['title']}")
+                objective = metadata.get("objective", "")
+                desc_en = metadata.get("description.en", "").strip()
+                desc_de = metadata.get("description.de", "").strip()
+                description = desc_en if desc_en != "" else desc_de
+                full_snippet = f"{description}"
+                words = full_snippet.split()
+                preview_word_count = 90
+                preview_text = " ".join(words[:preview_word_count])
+                remainder_text = " ".join(words[preview_word_count:])
+                # Create two columns: left for full description (preview + remainder) and right for additional details.
+                col_left, col_right = st.columns(2)
+                with col_left:
+                    # Combine preview and remainder into one text block.
+                    full_description = preview_text + (" " + remainder_text if remainder_text else "")
+                    st.markdown(full_description)
+                with col_right:
+                    start_year = metadata.get('start_year', None)
+                    end_year = metadata.get('end_year', None)
+                    start_year_str = extract_year(start_year) if start_year else "Unknown"
+                    end_year_str = extract_year(end_year) if end_year else "Unknown"
+                    total_project = metadata.get('total_project', "Unknown")
+                    total_volume = metadata.get('total_volume', "Unknown")
+                    formatted_project_budget = format_currency(total_project)
+                    formatted_total_volume = format_currency(total_volume)
+                    try:
+                        c_list = json.loads(metadata.get('countries', "[]").replace("'", '"'))
+                    except json.JSONDecodeError:
+                        c_list = []
+                    matched_countries = []
+                    for code in c_list:
+                        if len(code) == 2:
+                            resolved_name = get_country_name(code.upper(), region_df)
+                            if resolved_name.upper() != code.upper():
+                                matched_countries.append(resolved_name)
+                    crs_key = metadata.get("crs_key", "").strip()
+                    new_crs_value = lookup_crs_value(crs_key)
+                    crs_combined = f"{crs_key}: {new_crs_value}" if crs_key else "Unknown"
+                    client_name = metadata.get('client', 'Unknown Client')
+                    contact = metadata.get("contact", "").strip()
+                    additional_text = (
+                        f"Objective: **{objective}**<br>"
+                        f"Commissioned by **{client_name}**<br>"
+                        f"Projekt duration **{start_year_str}-{end_year_str}**<br>"
+                        f"Budget: Project: **{formatted_project_budget}**, Total volume: **{formatted_total_volume}**<br>"
+                        f"Country: **{', '.join(matched_countries)}**<br>"
+                        f"Sector: **{crs_combined}**"
+                    )
+                    if contact and contact.lower() != "[email protected]":
+                        additional_text += f"<br>Contact: **{contact}**"
+                    st.markdown(additional_text, unsafe_allow_html=True)
+                st.divider()