Spaces:

nlpblogs
/

artificial-intelligence-resume-analysis-app1

Running

App Files Files Community

nlpblogs commited on 22 days ago

Commit

5b1512b

verified ·

1 Parent(s): 0e0978c

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -108

app.py CHANGED Viewed

@@ -25,119 +25,70 @@ from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import tempfile
-# First set of inputs and calculations
-txt1 = st.text_area("Job description 1", key="text 1")
-job_description_series1 = pd.Series([txt1], name="Text")
-st.dataframe(job_description_series1)
-uploaded_files1 = st.file_uploader(
-    "Choose PDF file(s) for candidate profiles 1", type="pdf", key="candidate 1", accept_multiple_files=True
-)
-all_resumes_text1 = []  # Store the text content of each PDF
-if uploaded_files1:
-    for uploaded_file in uploaded_files1:
-        try:
-            pdf_reader = PdfReader(uploaded_file)
-            text_data = ""
-            for page in pdf_reader.pages:
-                text_data += page.extract_text()
-                model = GLiNER.from_pretrained("urchade/gliner_base")
-                labels = ["person", "country", "organization", "time", "role"]
-                entities = model.predict_entities(text_data, labels)
-            entity_dict = {}
-            for label in labels:
-                entity_dict[label] = [entity["text"] for entity in entities if entity["label"] == label]
-            data = {"Text": text_data, **entity_dict}
-            all_resumes_text1.append(data)
-        except Exception as e:
-            st.error(f"Error processing file {uploaded_file.name}: {e}")
-    if all_resumes_text1:
-        all_documents1 = [job_description_series1.iloc[0]] + all_resumes_text1
-        vectorizer1 = TfidfVectorizer()
-        tfidf_matrix1 = vectorizer1.fit_transform(all_documents1)
-        tfidf_df1 = pd.DataFrame(tfidf_matrix1.toarray(), columns=vectorizer1.get_feature_names_out())
-        st.subheader("TF-IDF Values (Set 1):")
-        st.dataframe(tfidf_df1)
-        cosine_sim_matrix1 = cosine_similarity(tfidf_matrix1)
-        cosine_sim_df1 = pd.DataFrame(cosine_sim_matrix1)
-        st.subheader("Cosine Similarity Matrix (Set 1):")
-        st.dataframe(cosine_sim_df1)
-        st.subheader("Cosine Similarity Scores (Job Description 1 vs. Resumes 1):")
-        for i, similarity_score in enumerate(cosine_sim_matrix1[0][1:]):
-            st.write(f"Similarity with Candidate Profile {i + 1}: {similarity_score:.4f}")
-st.divider()
-# Second set of inputs and calculations
-txt2 = st.text_area("Job description 2", key="text 2")
-job_description_series2 = pd.Series([txt2], name="Text")
-st.dataframe(job_description_series2)
-uploaded_files2 = st.file_uploader(
-    "Choose PDF file(s) for candidate profiles 2", type="pdf", key="candidate 2", accept_multiple_files=True
-)
-all_resumes_text2 = []  # Store the text content of each PDF
-if uploaded_files2:
-    for uploaded_file in uploaded_files2:
-        try:
-            pdf_reader = PdfReader(uploaded_file)
-            text_data = ""
-            for page in pdf_reader.pages:
-                text_data += page.extract_text()
-                model = GLiNER.from_pretrained("urchade/gliner_base")
-                labels = ["person", "country", "organization", "time", "role"]
                 entities = model.predict_entities(text_data, labels)
-            entity_dict = {}
-            for label in labels:
-                entity_dict[label] = [entity["text"] for entity in entities if entity["label"] == label]
-            data = {"Text": text_data, **entity_dict}
-            all_resumes_text2.append(text_data)
-        except Exception as e:
-            st.error(f"Error processing file {uploaded_file.name}: {e}")
-    if all_resumes_text2:
-        all_documents2 = [job_description_series2.iloc[0]] + all_resumes_text2
-        vectorizer2 = TfidfVectorizer()
-        tfidf_matrix2 = vectorizer2.fit_transform(all_documents2)
-        tfidf_df2 = pd.DataFrame(tfidf_matrix2.toarray(), columns=vectorizer2.get_feature_names_out())
-        st.subheader("TF-IDF Values (Set 2):")
-        st.dataframe(tfidf_df2)
-        cosine_sim_matrix2 = cosine_similarity(tfidf_matrix2)
-        cosine_sim_df2 = pd.DataFrame(cosine_sim_matrix2)
-        st.subheader("Cosine Similarity Matrix (Set 2):")
-        st.dataframe(cosine_sim_df2)
-        st.subheader("Cosine Similarity Scores (Job Description 2 vs. Resumes 2):")
-        for i, similarity_score in enumerate(cosine_sim_matrix2[0][1:]):
-            st.write(f"Similarity with Candidate Profile {i + 1}: {similarity_score:.4f}")

 from sklearn.metrics.pairwise import cosine_similarity
 import tempfile
+import streamlit as st
+import pandas as pd
+from PyPDF2 import PdfReader
+from gliner import GLiNER
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
+def process_documents(job_description_key, file_uploader_key, title):
+    txt = st.text_area(f"Job description for {title}", key=job_description_key)
+    job_description_series = pd.Series([txt], name="Text")
+    st.dataframe(job_description_series)
+    uploaded_files = st.file_uploader(
+        f"Choose PDF file(s) for candidate profiles for {title}", type="pdf", key=file_uploader_key,
+    )
+    all_extracted_data = []
+    if uploaded_files:
+        model = GLiNER.from_pretrained("urchade/gliner_base")
+        labels = ["person", "country", "organization", "time", "role"]
+        for uploaded_file in uploaded_files:
+            try:
+                pdf_reader = PdfReader(uploaded_file)
+                text_data = ""
+                for page in pdf_reader.pages:
+                    text_data += page.extract_text()
                 entities = model.predict_entities(text_data, labels)
+                entity_dict = {}
+                for label in labels:
+                    entity_dict[label] = [entity["text"] for entity in entities if entity["label"] == label]
+                data = {"Text": text_data, **entity_dict}
+                all_extracted_data.append(data)
+            except Exception as e:
+                st.error(f"Error processing file {uploaded_file.name}: {e}")
+        if all_extracted_data:
+            df_entities = pd.DataFrame(all_extracted_data)
+            st.subheader(f"Extracted Entities ({title}):")
+            st.dataframe(df_entities)
+            all_documents = [job_description_series.iloc[0]] + df_entities['Text'].tolist()
+            vectorizer = TfidfVectorizer()
+            tfidf_matrix = vectorizer.fit_transform(all_documents)
+            tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
+            st.subheader(f"TF-IDF Values ({title}):")
+            st.dataframe(tfidf_df)
+            cosine_sim_matrix = cosine_similarity(tfidf_matrix)
+            cosine_sim_df = pd.DataFrame(cosine_sim_matrix)
+            st.subheader(f"Cosine Similarity Matrix ({title}):")
+            st.dataframe(cosine_sim_df)
+            st.subheader(f"Cosine Similarity Scores (Job Description for {title} vs. Resumes):")
+            for i, similarity_score in enumerate(cosine_sim_matrix[0][1:]):
+                st.write(f"Similarity with Candidate Profile {i + 1}: {similarity_score:.4f}")
+st.header("Analysis Set 1")
+process_documents("text 1", "candidate 1", "Set 1")
+st.divider()
+st.header("Analysis Set 2")
+process_documents("text 2", "candidate 2", "Set 2")