Spaces:

Krishna086
/

Multi-language-translation-with-MarianMT

Running

App Files Files Community

Krishna086 commited on Apr 17

Commit

fa267df

verified ·

1 Parent(s): 54945d2

Update translation.py

Browse files

Files changed (1) hide show

translation.py +3 -3

translation.py CHANGED Viewed

@@ -45,7 +45,7 @@ def load_model(source_lang, target_lang):
     tokenizer_model_pair = all_models.get(model_key)
     if tokenizer_model_pair and tokenizer_model_pair[0] and tokenizer_model_pair[1]:
         return tokenizer_model_pair
-    # Use direct English pivot only if necessary
     if source_lang != "en" and target_lang != "en":
         en_pivot_pair = all_models.get((source_lang, "en")) or _load_model_pair(source_lang, "en")
         if en_pivot_pair[0] and en_pivot_pair[1]:
@@ -60,7 +60,7 @@ def load_model(source_lang, target_lang):
                 en_text = text
             if target_lang != "en":
                 en_to_tgt_tokenizer, en_to_tgt_model = all_models.get(("en", target_lang), _load_default_model())
-                return en_to_tgt_tokenizer.decode(en_to_tgt_model.generate(**en_to_tgt_tokenizer(en_text, return_tensors="pt", padding=True, truncation=True, max_length=500))[0], skip_special_tokens=True)
             return en_text
     return default_tokenizer, CombinedModel()
@@ -81,7 +81,7 @@ def translate(text, source_lang, target_lang):
         tokenizer, model = load_model(source_lang, target_lang)
         inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500)
         with torch.no_grad():
-            translated = model.generate(**inputs, max_length=500, num_beams=4, early_stopping=True)  # Increased beams for better accuracy
         result = tokenizer.decode(translated[0], skip_special_tokens=True)
         return result if result.strip() else text
     except Exception as e:

     tokenizer_model_pair = all_models.get(model_key)
     if tokenizer_model_pair and tokenizer_model_pair[0] and tokenizer_model_pair[1]:
         return tokenizer_model_pair
+    # Use direct English pivot with defined combined_translate
     if source_lang != "en" and target_lang != "en":
         en_pivot_pair = all_models.get((source_lang, "en")) or _load_model_pair(source_lang, "en")
         if en_pivot_pair[0] and en_pivot_pair[1]:
                 en_text = text
             if target_lang != "en":
                 en_to_tgt_tokenizer, en_to_tgt_model = all_models.get(("en", target_lang), _load_default_model())
+                return en_to_tgt_tokenizer.decode(en_to_tgt_model.generate(**en_to_tgt_tokenizer(en_text, return_tensors="pt", padding=True, truncation=True, max_length=1000))[0], skip_special_tokens=True)  # Increased max_length
             return en_text
     return default_tokenizer, CombinedModel()
         tokenizer, model = load_model(source_lang, target_lang)
         inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500)
         with torch.no_grad():
+            translated = model.generate(**inputs, max_length=1000 if target_lang == "hi" else 500, num_beams=6 if target_lang == "hi" else 4, early_stopping=True)  # Adjusted for Hindi
         result = tokenizer.decode(translated[0], skip_special_tokens=True)
         return result if result.strip() else text
     except Exception as e: