Spaces:

Yoxas
/

Creatingdataset

Runtime error

App Files Files Community

Yoxas commited on May 23, 2024

Commit

e960059

verified ·

1 Parent(s): b6579fb

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -3

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import PyPDF2
 import pandas as pd
 from transformers import pipeline, AutoTokenizer
 import gradio as gr
 # Function to clean text by keeping only alphanumeric characters and spaces
 def clean_text(text):
@@ -27,6 +28,7 @@ def split_text(text, chunk_size=1024):
 led_tokenizer = AutoTokenizer.from_pretrained("allenai/led-base-16384-multi_lexsum-source-long")
 # Function to classify text using LED model
 def classify_text(text):
     classifier = pipeline("text-classification", model="allenai/led-base-16384-multi_lexsum-source-long", tokenizer=led_tokenizer, framework="pt")
     try:
@@ -35,6 +37,7 @@ def classify_text(text):
         return "Unable to classify"
 # Function to summarize text using BGE-m3 model
 def summarize_text(text, max_length=100, min_length=30):
     summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", tokenizer="sshleifer/distilbart-cnn-12-6", framework="pt")
     try:
@@ -43,6 +46,7 @@ def summarize_text(text, max_length=100, min_length=30):
         return "Unable to summarize"
 # Function to extract a title-like summary from the beginning of the text
 def extract_title(text, max_length=20):
     summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", tokenizer="sshleifer/distilbart-cnn-12-6", framework="pt")
     try:
@@ -51,6 +55,7 @@ def extract_title(text, max_length=20):
         return "Unable to extract title"
 # Function to process PDF files and generate summaries
 def process_pdfs(pdf_files):
     data = []
@@ -99,6 +104,9 @@ gr.Interface(
     fn=process_pdfs,
     inputs=pdf_input,
     outputs=csv_output,
-    title="PDF Summarizer",
-    description="Upload PDF files and get a summarized CSV file."
-).launch()

 import pandas as pd
 from transformers import pipeline, AutoTokenizer
 import gradio as gr
+import spaces
 # Function to clean text by keeping only alphanumeric characters and spaces
 def clean_text(text):
 led_tokenizer = AutoTokenizer.from_pretrained("allenai/led-base-16384-multi_lexsum-source-long")
 # Function to classify text using LED model
+@spaces.GPU(duration=120)
 def classify_text(text):
     classifier = pipeline("text-classification", model="allenai/led-base-16384-multi_lexsum-source-long", tokenizer=led_tokenizer, framework="pt")
     try:
         return "Unable to classify"
 # Function to summarize text using BGE-m3 model
+@spaces.GPU(duration=120)
 def summarize_text(text, max_length=100, min_length=30):
     summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", tokenizer="sshleifer/distilbart-cnn-12-6", framework="pt")
     try:
         return "Unable to summarize"
 # Function to extract a title-like summary from the beginning of the text
+@spaces.GPU(duration=120)
 def extract_title(text, max_length=20):
     summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", tokenizer="sshleifer/distilbart-cnn-12-6", framework="pt")
     try:
         return "Unable to extract title"
 # Function to process PDF files and generate summaries
+@spaces.GPU(duration=120)
 def process_pdfs(pdf_files):
     data = []
     fn=process_pdfs,
     inputs=pdf_input,
     outputs=csv_output,
+    title="Dataset creation",
+    description="Upload PDF files and get a summarized CSV file.",
+    article="""<p>This is an experimental app that allows you to create a dataset from research papers.</p>
+                <p>This app uses the allenai/led-base-16384-multi_lexsum-source-long and sshleifer/distilbart-cnn-12-6 AI models.</p>
+                <p>The output file is a CSV with 3 columns: title, abstract, and content.</p>"""
+).launch(share=True)