Spaces:

akshatOP
/

nuera

Runtime error

App Files Files Community

akshatOP commited on Feb 28

Commit

8cd6f6e

1 Parent(s): a2cfe7a

Update all files: Fix Parler-TTS imports, PyTorch version, and model loading

Browse files

Files changed (3) hide show

download_and_finetune_sst.py +48 -0
download_and_finetune_tts.py +44 -0
requirements.txt +1 -2

download_and_finetune_sst.py CHANGED Viewed

	@@ -0,0 +1,48 @@

+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Trainer, TrainingArguments
+from datasets import load_dataset
+# Download model
+model_name = "facebook/wav2vec2-base-960h"
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+# Load dataset (replace with your dataset)
+dataset = load_dataset("librispeech_asr", "clean", split="train.100")  # Example dataset
+# Preprocess function
+def preprocess_function(examples):
+    audio = examples["audio"]
+    inputs = processor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt", padding=True)
+    with processor.as_target_processor():
+        labels = processor(examples["text"], return_tensors="pt", padding=True)
+    return {
+        "input_values": inputs["input_values"][0],
+        "labels": labels["input_ids"][0]
+    }
+train_dataset = dataset.map(preprocess_function, remove_columns=dataset.column_names)
+# Training arguments
+training_args = TrainingArguments(
+    output_dir="./sst_finetuned",
+    per_device_train_batch_size=8,
+    num_train_epochs=3,
+    save_steps=500,
+    logging_steps=10,
+)
+# Initialize Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+)
+# Fine-tune
+trainer.train()
+# Save fine-tuned model
+trainer.save_model("./sst_finetuned")
+processor.save_pretrained("./sst_finetuned")
+print("SST model fine-tuned and saved to './sst_finetuned'. Upload to models/sst_model in your Space.")

download_and_finetune_tts.py CHANGED Viewed

	@@ -0,0 +1,44 @@

+from transformers import ParlerTTSForConditionalGeneration, AutoTokenizer, Trainer, TrainingArguments
+from datasets import load_dataset
+# Download model
+model_name = "parler-tts/parler-tts-mini-v1"
+model = ParlerTTSForConditionalGeneration.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Load dataset (replace with your dataset)
+dataset = load_dataset("lj_speech")  # Example dataset; adjust as needed
+# Preprocess function (customize based on your dataset)
+def preprocess_function(examples):
+    # Tokenize text and prepare audio (example; adjust for your data)
+    inputs = tokenizer(examples["text"], return_tensors="pt", padding=True, truncation=True)
+    # Add audio processing if needed
+    return {"input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"]}
+train_dataset = dataset["train"].map(preprocess_function, batched=True)
+# Training arguments
+training_args = TrainingArguments(
+    output_dir="./tts_finetuned",
+    per_device_train_batch_size=8,
+    num_train_epochs=3,
+    save_steps=500,
+    logging_steps=10,
+)
+# Initialize Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+)
+# Fine-tune
+trainer.train()
+# Save fine-tuned model
+trainer.save_model("./tts_finetuned")
+tokenizer.save_pretrained("./tts_finetuned")
+print("TTS model fine-tuned and saved to './tts_finetuned'. Upload to models/tts_model in your Space.")

requirements.txt CHANGED Viewed

@@ -1,9 +1,8 @@
 fastapi==0.103.2
 uvicorn==0.23.2
-git+https://github.com/huggingface/transformers.git@main#egg=transformers
 torch==2.1.2
 soundfile==0.12.1
 numpy==1.26.4
-llama-cpp-python==0.2.28
 pydantic==2.5.3
 datasets==2.16.1

 fastapi==0.103.2
 uvicorn==0.23.2
+transformers==4.41.0
 torch==2.1.2
 soundfile==0.12.1
 numpy==1.26.4
 pydantic==2.5.3
 datasets==2.16.1