Spaces:

Circhastic
/

Code-Readability-Classifier

Sleeping

App Files Files Community

Circhastic commited on Mar 9

Commit

98ba9be

1 Parent(s): 9ac8247

updated app to replace comments

Browse files

Files changed (1) hide show

app.py +12 -5

app.py CHANGED Viewed

@@ -3,19 +3,24 @@ import numpy as np
 import tensorflow as tf
 from tokenizers import Tokenizer
 from tensorflow.keras.preprocessing.sequence import pad_sequences
 # Load trained tokenizer and model
 tokenizer = Tokenizer.from_file("cr_tokenizer.json")
 model = tf.keras.models.load_model("crv3.keras")
-# Tokenization function
 def tokenize_java_code(code: str, max_length=100):
     """Tokenizes and pads Java code for model input."""
     encoded = tokenizer.encode(code).ids
     padded_sequence = pad_sequences([encoded], maxlen=max_length, padding="post")[0]
     return np.array(padded_sequence).reshape(1, -1)  # Ensure correct shape for model
-# Prediction function
 def classify_code(input_text, input_file):
     """Classifies Java code readability based on user input."""
     # Load Java file if provided
@@ -27,21 +32,23 @@ def classify_code(input_text, input_file):
     if not code.strip():  # Ensure input is not empty
         return "Please provide a Java code snippet."
     # Tokenize and predict
-    tokenized_code = tokenize_java_code(code)
     prediction = model.predict(tokenized_code)[0][0]
     # Convert to readable/unreadable
     return "Readable" if prediction > 0.5 else "Unreadable"
-# Create Gradio interface
 gr.Interface(
     fn=classify_code,
     inputs=[
         gr.Textbox(lines=10, placeholder="Paste Java code here...", label="Java Code Snippet"),
         gr.File(type="binary", label="Upload Java File (.java)")
     ],
-    outputs=gr.Text(label="Readability Prediction"),
     title="Java Code Readability Classifier",
     description="Upload a Java file or paste a Java code snippet to check if it's readable or unreadable.",
     allow_flagging="never"

 import tensorflow as tf
 from tokenizers import Tokenizer
 from tensorflow.keras.preprocessing.sequence import pad_sequences
+import re
 # Load trained tokenizer and model
 tokenizer = Tokenizer.from_file("cr_tokenizer.json")
 model = tf.keras.models.load_model("crv3.keras")
+def replace_java_comments(code: str) -> str:
+    """Replaces Java comments with placeholders."""
+    code = re.sub(r"//.*", " SINGLE_LINE_COMMENT ", code)  # Replace single-line comments
+    code = re.sub(r"/\*[\s\S]*?\*/", " MULTI_LINE_COMMENT ", code)  # Replace multi-line comments
+    return code.strip()  # Keep indentation
 def tokenize_java_code(code: str, max_length=100):
     """Tokenizes and pads Java code for model input."""
     encoded = tokenizer.encode(code).ids
     padded_sequence = pad_sequences([encoded], maxlen=max_length, padding="post")[0]
     return np.array(padded_sequence).reshape(1, -1)  # Ensure correct shape for model
 def classify_code(input_text, input_file):
     """Classifies Java code readability based on user input."""
     # Load Java file if provided
     if not code.strip():  # Ensure input is not empty
         return "Please provide a Java code snippet."
+    # Replace comments before tokenization
+    cleaned_code = replace_java_comments(code)
     # Tokenize and predict
+    tokenized_code = tokenize_java_code(cleaned_code)
     prediction = model.predict(tokenized_code)[0][0]
     # Convert to readable/unreadable
     return "Readable" if prediction > 0.5 else "Unreadable"
 gr.Interface(
     fn=classify_code,
     inputs=[
         gr.Textbox(lines=10, placeholder="Paste Java code here...", label="Java Code Snippet"),
         gr.File(type="binary", label="Upload Java File (.java)")
     ],
+    outputs=gr.Text(label="Readability Classification"),
     title="Java Code Readability Classifier",
     description="Upload a Java file or paste a Java code snippet to check if it's readable or unreadable.",
     allow_flagging="never"