Spaces:

ozgurunlu
/

m-check

Sleeping

App Files Files Community

Ozgur Unlu commited on Nov 6, 2024

Commit

761644c

1 Parent(s): b00d113

more error fixes for grammar check

Browse files

Files changed (1) hide show

app.py +63 -53

app.py CHANGED Viewed

@@ -3,8 +3,7 @@ import torch
 from transformers import (
     AutoTokenizer,
     AutoModelForSequenceClassification,
-    T5ForConditionalGeneration,
-    T5Tokenizer
 )
 import os
 from pdf_generator import ReportGenerator
@@ -19,9 +18,9 @@ def load_models():
     hate_tokenizer = AutoTokenizer.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
     hate_model = AutoModelForSequenceClassification.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
-    # Grammar check model (using T5)
-    grammar_tokenizer = T5Tokenizer.from_pretrained("orthwand/t5-small-grammar-correction")
-    grammar_model = T5ForConditionalGeneration.from_pretrained("orthwand/t5-small-grammar-correction")
     return {
         'hate_speech': (hate_model, hate_tokenizer),
@@ -71,13 +70,15 @@ def check_hate_speech(text, model, tokenizer):
 def check_grammar(text, model, tokenizer):
     try:
-        input_ids = tokenizer(f"grammar: {text}", return_tensors="pt", max_length=512, truncation=True).input_ids
         outputs = model.generate(
-            input_ids,
             max_length=512,
-            num_beams=4,
-            early_stopping=True
         )
         corrected = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -98,51 +99,60 @@ def check_grammar(text, model, tokenizer):
         }
 def analyze_content(text):
-    # Initialize report generator
-    report_gen = ReportGenerator()
-    report_gen.add_header()
-    report_gen.add_input_text(text)
-    # Load models
-    models = load_models()
-    # Run all checks
-    results = {}
-    # 1. Length Check
-    length_result = check_text_length(text)
-    results['Length Check'] = length_result
-    report_gen.add_check_result("Length Check", length_result['status'], length_result['message'])
-    if length_result['status'] == 'fail':
         report_path = report_gen.save_report()
         return results, report_path
-    # 2. Hate Speech Check
-    hate_result = check_hate_speech(text, models['hate_speech'][0], models['hate_speech'][1])
-    results['Hate Speech Check'] = hate_result
-    report_gen.add_check_result("Hate Speech Check", hate_result['status'], hate_result['message'])
-    # 3. Grammar Check
-    grammar_result = check_grammar(text, models['grammar'][0], models['grammar'][1])
-    results['Grammar Check'] = grammar_result
-    report_gen.add_check_result("Grammar Check", grammar_result['status'], grammar_result['message'])
-    # 4. News Context Check
-    if os.getenv('NEWS_API_KEY'):
-        news_result = news_checker.check_content_against_news(text)
-    else:
-        news_result = {
-            'status': 'warning',
-            'message': 'News API key not configured. Skipping current events check.'
-        }
-    results['Current Events Context'] = news_result
-    report_gen.add_check_result("Current Events Context", news_result['status'], news_result['message'])
-    # Generate and save report
-    report_path = report_gen.save_report()
-    return results, report_path
 def format_results(results):
     status_symbols = {
@@ -201,7 +211,7 @@ def create_interface():
           - Text length
           - Hate speech and bias
           - Grammar
-          - Current events context (requires News API key)
         """)
     return interface

 from transformers import (
     AutoTokenizer,
     AutoModelForSequenceClassification,
+    AutoModelForSeq2SeqLM
 )
 import os
 from pdf_generator import ReportGenerator
     hate_tokenizer = AutoTokenizer.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
     hate_model = AutoModelForSequenceClassification.from_pretrained("facebook/roberta-hate-speech-dynabench-r4-target")
+    # Grammar check model
+    grammar_tokenizer = AutoTokenizer.from_pretrained("vennify/t5-base-grammar-correction")
+    grammar_model = AutoModelForSeq2SeqLM.from_pretrained("vennify/t5-base-grammar-correction")
     return {
         'hate_speech': (hate_model, hate_tokenizer),
 def check_grammar(text, model, tokenizer):
     try:
+        input_text = f"grammar: {text}"
+        encoding = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
         outputs = model.generate(
+            input_ids=encoding.input_ids,
+            attention_mask=encoding.attention_mask,
             max_length=512,
+            num_beams=5,
+            num_return_sequences=1
         )
         corrected = tokenizer.decode(outputs[0], skip_special_tokens=True)
         }
 def analyze_content(text):
+    try:
+        # Initialize report generator
+        report_gen = ReportGenerator()
+        report_gen.add_header()
+        report_gen.add_input_text(text)
+        # Load models
+        models = load_models()
+        # Run all checks
+        results = {}
+        # 1. Length Check
+        length_result = check_text_length(text)
+        results['Length Check'] = length_result
+        report_gen.add_check_result("Length Check", length_result['status'], length_result['message'])
+        if length_result['status'] == 'fail':
+            report_path = report_gen.save_report()
+            return results, report_path
+        # 2. Hate Speech Check
+        hate_result = check_hate_speech(text, models['hate_speech'][0], models['hate_speech'][1])
+        results['Hate Speech Check'] = hate_result
+        report_gen.add_check_result("Hate Speech Check", hate_result['status'], hate_result['message'])
+        # 3. Grammar Check
+        grammar_result = check_grammar(text, models['grammar'][0], models['grammar'][1])
+        results['Grammar Check'] = grammar_result
+        report_gen.add_check_result("Grammar Check", grammar_result['status'], grammar_result['message'])
+        # 4. News Context Check
+        if os.getenv('NEWS_API_KEY'):
+            news_result = news_checker.check_content_against_news(text)
+        else:
+            news_result = {
+                'status': 'warning',
+                'message': 'News API key not configured. Skipping current events check.'
+            }
+        results['Current Events Context'] = news_result
+        report_gen.add_check_result("Current Events Context", news_result['status'], news_result['message'])
+        # Generate and save report
         report_path = report_gen.save_report()
         return results, report_path
+    except Exception as e:
+        print(f"Error in analyze_content: {str(e)}")
+        return {
+            'Length Check': {'status': 'error', 'message': 'Analysis failed'},
+            'Hate Speech Check': {'status': 'error', 'message': 'Analysis failed'},
+            'Grammar Check': {'status': 'error', 'message': 'Analysis failed'},
+            'Current Events Context': {'status': 'error', 'message': 'Analysis failed'}
+        }, None
 def format_results(results):
     status_symbols = {
           - Text length
           - Hate speech and bias
           - Grammar
+          - Current events context
         """)
     return interface