Spaces:

DeepLearning101
/

Corrector101zhTW

Running

App Files Files Community

DeepLearning101 commited on Apr 30, 2024

Commit

b9c5636

verified ·

1 Parent(s): 00f629f

Update app.py

Browse files

File "/home/user/app/app.py", line 57
return corrected_text + ' ' + str(details)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
SyntaxError: 'return' outside function

在except區塊中定義了幾個函數，但在except區塊的末尾，您直接使用了return語句，而這個return語句不屬於任何函數，這就是導致語法錯誤的原因。

移動函數定義：將ai_text、to_highlight和get_errors函數移出except區塊，使其成為全域函數。
例外處理：在except區塊中加入適當的異常處理邏輯，例如列印錯誤訊息。
介面定義：確認Gradio 介面的建立和配置正確無誤。

Files changed (1) hide show

app.py +32 -54

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
-# -*- coding: utf-8 -*-
 import gradio as gr
 import operator
 import torch
@@ -7,58 +5,41 @@ import os
 from transformers import BertTokenizer, BertForMaskedLM
 # 使用私有模型和分詞器
-model_name_or_path = "DeepLearning101/Corrector101zhTW"
-# auth_token = os.getenv("Corrector101zhTW")  # 從環境變量中獲取 token
-# tokenizer = BertTokenizer.from_pretrained(model_name_or_path, use_auth_token=auth_token)
-# model = BertForMaskedLM.from_pretrained(model_name_or_path, use_auth_token=auth_token)
-# tokenizer = BertTokenizer.from_pretrained(model_name_or_path)
-# model = BertForMaskedLM.from_pretrained(model_name_or_path)
 model_name_or_path = "DeepLearning101/Corrector101zhTW"
 try:
     tokenizer = BertTokenizer.from_pretrained(model_name_or_path)
     model = BertForMaskedLM.from_pretrained(model_name_or_path)
 except Exception as e:
-    def ai_text(text):
-        with torch.no_grad():
-            outputs = model(**tokenizer([text], padding=True, return_tensors='pt'))
-    def to_highlight(corrected_sent, errs):
-        output = [{"entity": "糾錯", "word": err[1], "start": err[2], "end": err[3]} for i, err in
-                  enumerate(errs)]
-        return {"text": corrected_sent, "entities": output}
-    def get_errors(corrected_text, origin_text):
-        sub_details = []
-        for i, ori_char in enumerate(origin_text):
-            if ori_char in [' ', '“', '”', '‘', '’', '琊', '\n', '…', '—', '擤']:
-                # add unk word
-                corrected_text = corrected_text[:i] + ori_char + corrected_text[i:]
-                continue
-            if i >= len(corrected_text):
-                continue
-            if ori_char != corrected_text[i]:
-                if ori_char.lower() == corrected_text[i]:
-                    # pass english upper char
-                    corrected_text = corrected_text[:i] + ori_char + corrected_text[i + 1:]
-                    continue
-                sub_details.append((ori_char, corrected_text[i], i, i + 1))
-        sub_details = sorted(sub_details, key=operator.itemgetter(2))
-        return corrected_text, sub_details
-    _text = tokenizer.decode(torch.argmax(outputs.logits[0], dim=-1), skip_special_tokens=True).replace(' ', '')
-    corrected_text = _text[:len(text)]
-    corrected_text, details = get_errors(corrected_text, text)
-    print(text, ' => ', corrected_text, details)
     return corrected_text + ' ' + str(details)
 if __name__ == '__main__':
     examples = [
         ['你究輸入利的手機門號跟生分證就可以了。'],
         ['這裡是客服中新，很高性為您服物，請問金天有什麼須要幫忙'],
@@ -66,16 +47,13 @@ if __name__ == '__main__':
         ['我來看以下，他的時價是多少？起實您就可以直皆就不用到門事'],
         ['因為你現在月富是六九九嘛，我幫擬減衣百塊，兒且也不會江速'],
     ]
-    inputs=[gr.Textbox(lines=2, label="欲校正的文字")],
-    outputs=[gr.Textbox(lines=2, label="修正後的文字")],
     gr.Interface(
-        inputs='text',
-        outputs='text',
-    title="客服ASR文本AI糾錯系統",
-    description="""
-    <a href="https://www.twman.org" target='_blank'>TonTon Huang Ph.D. @ 2024/04 </a><br>
-    輸入ASR文本，糾正同音字/詞錯誤<br>
-    Masked Language Model (MLM) as correction BERT
-    """,    examples=examples
     ).launch()

 import gradio as gr
 import operator
 import torch
 from transformers import BertTokenizer, BertForMaskedLM
 # 使用私有模型和分詞器
 model_name_or_path = "DeepLearning101/Corrector101zhTW"
+# 嘗試加載模型和分詞器
 try:
     tokenizer = BertTokenizer.from_pretrained(model_name_or_path)
     model = BertForMaskedLM.from_pretrained(model_name_or_path)
 except Exception as e:
+    print(f"加載模型或分詞器失敗，錯誤信息：{e}")
+    exit(1)
+def ai_text(text):
+    with torch.no_grad():
+        outputs = model(**tokenizer([text], padding=True, return_tensors='pt'))
+    corrected_text, details = get_errors(text)
     return corrected_text + ' ' + str(details)
+def to_highlight(corrected_sent, errs):
+    output = [{"entity": "糾錯", "word": err[1], "start": err[2], "end": err[3]} for err in errs]
+    return {"text": corrected_sent, "entities": output}
+def get_errors(text):
+    sub_details = []
+    corrected_text = tokenizer.decode(torch.argmax(outputs.logits[0], dim=-1), skip_special_tokens=True).replace(' ', '')
+    for i, ori_char in enumerate(text):
+        # 略過特定字符
+        if ori_char in [' ', '“', '”', '‘', '’', '琊', '\n', '…', '—', '擤']:
+            continue
+        if i >= len(corrected_text):
+            continue
+        if ori_char != corrected_text[i]:
+            sub_details.append((ori_char, corrected_text[i], i, i + 1))
+    sub_details = sorted(sub_details, key=operator.itemgetter(2))
+    return corrected_text, sub_details
 if __name__ == '__main__':
     examples = [
         ['你究輸入利的手機門號跟生分證就可以了。'],
         ['這裡是客服中新，很高性為您服物，請問金天有什麼須要幫忙'],
         ['我來看以下，他的時價是多少？起實您就可以直皆就不用到門事'],
         ['因為你現在月富是六九九嘛，我幫擬減衣百塊，兒且也不會江速'],
     ]
     gr.Interface(
+        fn=ai_text,
+        inputs=gr.Textbox(lines=2, label="欲校正的文字"),
+        outputs=gr.Textbox(lines=2, label="修正後的文字"),
+        title="客服ASR文本AI糾錯系統",
+        description="""<a href="https://www.twman.org" target='_blank'>TonTon Huang Ph.D. @ 2024/04 </a><br>
+                    輸入ASR文本，糾正同音字/詞錯誤<br>
+                    Masked Language Model (MLM) as correction BERT""",
+        examples=examples
     ).launch()