Spaces:

songhieng
/

khmer-mt5-summarization-interface

Running

App Files Files Community

songhieng commited on 25 days ago

Commit

9599706

verified ·

1 Parent(s): 8ef53b5

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -32

app.py CHANGED Viewed

@@ -1,49 +1,75 @@
 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-# Load tokenizer and model
-model_identifier = "songhieng/khmer-mt5-summarization"
-tokenizer = AutoTokenizer.from_pretrained(model_identifier, use_fast=False)
-model = AutoModelForSeq2SeqLM.from_pretrained(model_identifier, use_fast=False)
-# Set page configuration
-st.set_page_config(page_title="Khmer Text Summarization", layout="wide")
-# App title and description
-st.title("Khmer Text Summarization")
-st.write("Enter Khmer text below to generate a concise summary.")
-# Text input
-user_input = st.text_area("Input Text:", height=300)
-# Summarization parameters
 st.sidebar.header("Summarization Settings")
-max_length = st.sidebar.slider("Maximum Summary Length", min_value=50, max_value=300, value=150, step=10)
-min_length = st.sidebar.slider("Minimum Summary Length", min_value=10, max_value=100, value=30, step=5)
-num_beams = st.sidebar.slider("Number of Beams", min_value=1, max_value=10, value=4, step=1)
-# Summarize button
-if st.button("Summarize"):
-    if user_input.strip():
-        try:
-            # Tokenize input
-            inputs = tokenizer.encode(user_input, return_tensors="pt", truncation=True)
-            # Generate summary
             summary_ids = model.generate(
-                inputs,
                 max_length=max_length,
                 min_length=min_length,
                 num_beams=num_beams,
                 length_penalty=2.0,
                 early_stopping=True
             )
-            summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
-            # Display summary
-            st.subheader("Summary:")
-            st.write(summary)
-        except Exception as e:
-            st.error(f"An error occurred during summarization: {e}")
-    else:
-        st.warning("Please enter some text to summarize.")

 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# 1. Model identifier
+MODEL_ID = "songhieng/khmer-mt5-summarization"
+# 2. Load tokenizer (you can choose fast or slow; fast is the default)
+@st.cache_resource
+def load_tokenizer_and_model(model_id):
+    tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
+    return tokenizer, model
+tokenizer, model = load_tokenizer_and_model(MODEL_ID)
+# 3. Streamlit page config
+st.set_page_config(
+    page_title="Khmer Text Summarization",
+    layout="wide",
+    initial_sidebar_state="expanded"
+)
+# 4. App header
+st.title("📝 Khmer Text Summarization")
+st.write("Paste your Khmer text below and click **Summarize** to get a concise summary.")
+# 5. Sidebar summarization settings
 st.sidebar.header("Summarization Settings")
+max_length = st.sidebar.slider(
+    "Maximum summary length", 50, 300, 150, step=10
+)
+min_length = st.sidebar.slider(
+    "Minimum summary length", 10, 100, 30, step=5
+)
+num_beams = st.sidebar.slider(
+    "Beam search width", 1, 10, 4, step=1
+)
+# 6. Text input
+user_input = st.text_area(
+    "Enter Khmer text here…",
+    height=300,
+    placeholder="សូមវាយអត្ថបទខ្មែរនៅទីនេះ…"
+)
+# 7. Summarize button
+if st.button("Summarize"):
+    if not user_input.strip():
+        st.warning("⚠️ Please enter some text to summarize.")
+    else:
+        with st.spinner("Generating summary…"):
+            # Tokenize
+            inputs = tokenizer(
+                user_input,
+                return_tensors="pt",
+                truncation=True,
+                padding="longest"
+            )
+            # Generate
             summary_ids = model.generate(
+                **inputs,
                 max_length=max_length,
                 min_length=min_length,
                 num_beams=num_beams,
                 length_penalty=2.0,
                 early_stopping=True
             )
+            # Decode
+            summary = tokenizer.decode(
+                summary_ids[0],
+                skip_special_tokens=True
+            )
+        # Display
+        st.subheader("🔖 Summary:")
+        st.write(summary)