Spaces:

sidd1311
/

lang-translator

Running

sidd1311 commited on 4 days ago

Commit

7884e0d

verified ·

1 Parent(s): 5d617f8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 import os
 import re
 from polyglot.detect import Detector
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 MODEL = "LLaMAX/LLaMAX3-8B-Alpaca"
@@ -19,6 +21,11 @@ model = AutoModelForCausalLM.from_pretrained(
         device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
 def lang_detector(text):
     min_chars = 5
@@ -91,7 +98,10 @@ CSS = """
 """
 LICENSE = """
-Model: <a href="https://huggingface.co/LLaMAX/LLaMAX3-8B-Alpaca">LLaMAX3-8B-Alpaca</a>
 """
 LANG_LIST = [

 import os
 import re
 from polyglot.detect import Detector
+from bhasa_dataset import load_bhasa_dataset
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 MODEL = "LLaMAX/LLaMAX3-8B-Alpaca"
         device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
+# Simulated integration of BhasaAnuvaad dataset from paper: https://huggingface.co/papers/2411.04699
+dataset = load_bhasa_dataset()
+sample_pair = dataset[0]
+print(f"Example from dataset - Source: {sample_pair['source_text']}, Target: {sample_pair['target_text']}")
 def lang_detector(text):
     min_chars = 5
 """
 LICENSE = """
+Model: <a href="https://huggingface.co/LLaMAX/LLaMAX3-8B-Alpaca">LLaMAX3-8B-Alpaca</a><br>
+Dataset: <a href="https://huggingface.co/papers/2411.04699">BhasaAnuvaad: Multilingual Speech Translation</a>
+"""
 """
 LANG_LIST = [