Spaces:

thamnt
/

BGMedia

Sleeping

thamnt commited on 14 days ago

Commit

1780683

verified ·

1 Parent(s): ec6e026

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,12 +10,20 @@ from datetime import datetime
 import gradio as gr
 import io
-nltk.data.path.append("./nltk_data")
-nltk.download('stopwords')
-nltk.download('punkt')
-nltk.download('wordnet')
-nltk.download('punkt_tab')
 stop_words = set(stopwords.words('english'))
 lemmatizer = WordNetLemmatizer()
@@ -36,7 +44,9 @@ def capitalize_sentences(text):
 def process_transcript(csv_file, txt_file):
     transcript = pd.read_csv(csv_file)
-    loi_chuan = pd.read_csv(txt_file, sep='\t', header=None)
     #transcript = pd.read_csv(io.StringIO(csv_file.read().decode("utf-8")))
     #loi_chuan = pd.read_csv(io.StringIO(txt_file.read().decode("utf-8")), sep='\t', header=None)

 import gradio as gr
 import io
+nltk_data_dir = "./nltk_data"
+nltk.data.path.append(nltk_data_dir)
+nltk_resources = ["stopwords", "punkt", "wordnet"]
+for resource in nltk_resources:
+    try:
+        nltk.data.find(resource)
+    except LookupError:
+        nltk.download(resource, download_dir=nltk_data_dir)
+#nltk.download('stopwords')
+#nltk.download('punkt')
+#nltk.download('wordnet')
+#nltk.download('punkt_tab')
 stop_words = set(stopwords.words('english'))
 lemmatizer = WordNetLemmatizer()
 def process_transcript(csv_file, txt_file):
     transcript = pd.read_csv(csv_file)
+    #loi_chuan = pd.read_csv(txt_file, sep='\t', header=None)
+    loi_chuan = pd.read_csv(txt_file.name, sep='\t', header=None, encoding='utf-8', engine='python')
     #transcript = pd.read_csv(io.StringIO(csv_file.read().decode("utf-8")))
     #loi_chuan = pd.read_csv(io.StringIO(txt_file.read().decode("utf-8")), sep='\t', header=None)