Spaces:

Krishna086
/

Multi-language-translation-with-MarianMT

Running

Krishna086 commited on Apr 17

Commit

2328aaa

verified ·

1 Parent(s): 926dcae

Update translation.py

Files changed (1) hide show

translation.py CHANGED Viewed

@@ -67,7 +67,13 @@ def load_model(source_lang, target_lang):
     tokenizer_model_pair = all_models.get(model_key)
     if tokenizer_model_pair and tokenizer_model_pair[0] and tokenizer_model_pair[1]:
         return tokenizer_model_pair
-    # Use simplified pivot through English with CombinedModel
     default_tokenizer, default_model = _load_default_model()
     return default_tokenizer, CombinedModel(source_lang, target_lang, default_tokenizer, default_model)
@@ -88,7 +94,7 @@ def translate(text, source_lang, target_lang):
         tokenizer, model = load_model(source_lang, target_lang)
         inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500)
         with torch.no_grad():
-            translated = model.generate(**inputs, max_length=1000 if target_lang == "hi" else 500, num_beams=6 if target_lang == "hi" else 4, early_stopping=True)
         result = tokenizer.decode(translated[0], skip_special_tokens=True)
         return result if result.strip() else text
     except Exception as e:

     tokenizer_model_pair = all_models.get(model_key)
     if tokenizer_model_pair and tokenizer_model_pair[0] and tokenizer_model_pair[1]:
         return tokenizer_model_pair
+    # Prefer direct model if available, then pivot
+    for src in [source_lang, "en"]:
+        for tgt in [target_lang, "en"]:
+            if src != tgt:
+                pair = all_models.get((src, tgt))
+                if pair and pair[0] and pair[1]:
+                    return pair
     default_tokenizer, default_model = _load_default_model()
     return default_tokenizer, CombinedModel(source_lang, target_lang, default_tokenizer, default_model)
         tokenizer, model = load_model(source_lang, target_lang)
         inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=500)
         with torch.no_grad():
+            translated = model.generate(**inputs, max_length=1000 if target_lang == "hi" else 500, num_beams=4, early_stopping=True)  # Reduced to 4 beams for speed
         result = tokenizer.decode(translated[0], skip_special_tokens=True)
         return result if result.strip() else text
     except Exception as e: