Spaces:

billusanda007
/

DeepRank

Sleeping

App Files Files Community

billusanda007 commited on Mar 1

Commit

524d0a6

verified ·

1 Parent(s): c8db677

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -17

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import pandas as pd
 import numpy as np
 import re
-import pickle
 import pdfminer
 from pdfminer.high_level import extract_text
 import pytesseract
@@ -28,7 +29,15 @@ def pdf_to_text(file):
         text = "\n".join([pytesseract.image_to_string(img) for img in images])
     return text
 def load_deeprank_model():
     return load_model('deeprank_model_v2.h5')
 def predict_category(resumes_data, selected_category, max_sequence_length, model, tokenizer, label):
@@ -47,6 +56,9 @@ def predict_category(resumes_data, selected_category, max_sequence_length, model
     return ranks
 def main():
     model = load_deeprank_model()
     df = pd.read_csv('UpdatedResumeDataSet.csv')
     df['cleaned'] = df['Resume'].apply(cleanResume)
@@ -56,24 +68,22 @@ def main():
     text = df['cleaned'].values
     tokenizer = Tokenizer()
     tokenizer.fit_on_texts(text)
-    vocab_size = len(tokenizer.word_index) + 1
-    num_classes = len(label.classes_)
     max_sequence_length = 500
-    resumes_data = []
-    files = input("Enter the paths of resumes (comma-separated): ").split(',')
-    for file in files:
-        text = cleanResume(pdf_to_text(file.strip()))
-        resumes_data.append({'ResumeText': text, 'FileName': file.strip()})
-    print("Available categories:", list(label.classes_))
-    selected_category = input("Select a category to rank by: ")
-    if not resumes_data or selected_category not in label.classes_:
-        print("Error: Invalid input. Please provide valid resumes and select a valid category.")
-    else:
-        ranks = predict_category(resumes_data, selected_category, max_sequence_length, model, tokenizer, label)
-        print(pd.DataFrame(ranks))
 if __name__ == '__main__':
     main()

+import streamlit as st
 import pandas as pd
 import numpy as np
 import re
+import h5py
 import pdfminer
 from pdfminer.high_level import extract_text
 import pytesseract
         text = "\n".join([pytesseract.image_to_string(img) for img in images])
     return text
+def fix_h5_model():
+    with h5py.File("deeprank_model_v2.h5", "r+") as f:
+        if "model_config" in f.attrs:
+            model_config = f.attrs["model_config"]
+            updated_config = model_config.replace(b'"time_major": false', b"")
+            f.attrs.modify("model_config", updated_config)
 def load_deeprank_model():
+    fix_h5_model()
     return load_model('deeprank_model_v2.h5')
 def predict_category(resumes_data, selected_category, max_sequence_length, model, tokenizer, label):
     return ranks
 def main():
+    st.title("Resume Ranking App")
+    st.write("Upload resumes and select a category to rank them based on their relevance.")
     model = load_deeprank_model()
     df = pd.read_csv('UpdatedResumeDataSet.csv')
     df['cleaned'] = df['Resume'].apply(cleanResume)
     text = df['cleaned'].values
     tokenizer = Tokenizer()
     tokenizer.fit_on_texts(text)
     max_sequence_length = 500
+    uploaded_files = st.file_uploader("Upload Resumes (PDFs)", type=["pdf"], accept_multiple_files=True)
+    if uploaded_files:
+        resumes_data = []
+        for file in uploaded_files:
+            text = cleanResume(pdf_to_text(file))
+            resumes_data.append({'ResumeText': text, 'FileName': file.name})
+        selected_category = st.selectbox("Select a category to rank by", list(label.classes_))
+        if st.button("Rank Resumes"):
+            if resumes_data and selected_category:
+                ranks = predict_category(resumes_data, selected_category, max_sequence_length, model, tokenizer, label)
+                st.write(pd.DataFrame(ranks))
+            else:
+                st.error("Please upload valid resumes and select a valid category.")
 if __name__ == '__main__':
     main()