mobina1380 commited on 12 days ago

Commit

2c112a2

1 Parent(s): 73fce0c

First Persian SER model with SpeechBrain

Browse files

Files changed (20) hide show

README.md +11 -0
custom.py +1 -0
hyperparams.yaml +144 -0
inference.py +103 -0
save/CKPT+2025-04-21+07-00-58+00/CKPT.yaml +5 -0
save/CKPT+2025-04-21+07-00-58+00/brain.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/classifier.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/counter.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/dataloader-TRAIN.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/embedding_model.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/normalizer.ckpt +3 -0
save/CKPT+2025-04-21+07-00-58+00/optimizer.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/CKPT.yaml +5 -0
save/CKPT+2025-04-21+07-07-30+00/brain.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/classifier.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/counter.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/dataloader-TRAIN.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/embedding_model.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/normalizer.ckpt +3 -0
save/CKPT+2025-04-21+07-07-30+00/optimizer.ckpt +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,11 @@

+# Persian Speech Emotion Recognition with SpeechBrain (ShEMO)
+This model is a fine-tuned ECAPA-TDNN using the [ShEMO](https://github.com/ashkanpourmir/shEMO-database) dataset for Persian speech emotion recognition.
+Trained with [SpeechBrain](https://github.com/speechbrain/speechbrain).
+**Classes**: `anger`, `sadness`, `neutral`, `surprise`, `happiness`, `fear`
+To use:
+```python
+from inference import predict
+print(predict("yourfile.wav"))

custom.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ /mnt/c/Users/NoteBook/Documents/fineTuningSpeechbrain/recipes/ShEMO/emotion_recognition/results(2)/content/results/ECAPA-TDNN/1968/custom.py

hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,144 @@

+# Generated 2025-04-21 from:
+# /content/test/hparams/train.yaml
+# yamllint disable
+# ########################################
+# Emotion recognition from Persian speech using ECAPA-TDNN
+# Dataset: ShEMO
+# Language: Persian
+# ########################################
+# تنظیمات تصادفی (اختیاری)
+seed: 1968
+number_of_epochs: 30
+# ⚠️ این خط حذف شد چون ممکنه در بعضی محیط‌ها مشکل بده:
+# __set_seed: !apply:speechbrain.utils.seed_everything [!ref <seed>]
+# مسیر فولدر داده‌ها (در لوکال مسیر پروژه)
+data_folder: .
+# مسیر خروجی مدل‌ها و لاگ‌ها
+output_folder: results/ECAPA-TDNN/1968
+save_folder: results/ECAPA-TDNN/1968/save
+train_log: results/ECAPA-TDNN/1968/train_log.txt
+# فایل‌های CSV دیتاست
+csv_train: ./test/train.csv
+csv_valid: ./test/valid.csv
+csv_test: ./test/test.csv
+# Logger برای ذخیره‌ی وضعیت آموزش
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/ECAPA-TDNN/1968/train_log.txt
+# ارزیابی خطا
+error_stats: !name:speechbrain.utils.metric_stats.MetricStats
+  metric: !name:speechbrain.nnet.losses.classification_error
+    reduction: batch
+ckpt_interval_minutes: 15
+# پارامترهای آموزش
+batch_size: 4
+grad_accumulation_factor: 2
+lr: 0.0001
+weight_decay: 0.00002
+base_lr: 0.000001
+max_lr: 0.0001
+step_size: 1088
+mode: exp_range
+gamma: 0.9998
+shuffle: true
+drop_last: false
+# ویژگی‌های صوتی
+n_mels: 80
+left_frames: 0
+right_frames: 0
+deltas: false
+# کلاس‌های احساسات در ShEMO
+out_n_neurons: 6
+# نگاشت لیبل‌ها
+label_dict:
+  anger: 0
+  surprise: 1
+  happiness: 2
+  sadness: 3
+  neutral: 4
+  fear: 5
+label_encoder: !new:speechbrain.dataio.encoder.CategoricalEncoder
+# تنظیمات DataLoader
+dataloader_options:
+  batch_size: 4
+  shuffle: true
+  num_workers: 2
+  drop_last: false
+# استخراج ویژگی‌ها (Mel Spectrogram)
+compute_features: &id001 !new:speechbrain.lobes.features.Fbank
+  n_mels: 80
+  left_frames: 0
+  right_frames: 0
+  deltas: false
+# مدل ECAPA-TDNN
+embedding_model: &id002 !new:speechbrain.lobes.models.ECAPA_TDNN.ECAPA_TDNN
+  input_size: 80
+  channels: [512, 512, 512, 512, 1536]
+  kernel_sizes: [5, 3, 3, 3, 1]
+  dilations: [1, 2, 3, 4, 1]
+  attention_channels: 64
+  lin_neurons: 96
+# کلاس‌فایر خروجی
+classifier: &id003 !new:speechbrain.lobes.models.ECAPA_TDNN.Classifier
+  input_size: 96
+  out_neurons: 6
+# شمارنده اپوک‌ها
+epoch_counter: &id005 !new:speechbrain.utils.epoch_loop.EpochCounter
+  limit: 30
+# نرمال‌سازی ویژگی‌ها
+mean_var_norm: &id004 !new:speechbrain.processing.features.InputNormalization
+# تابع خطا
+  norm_type: sentence
+  std_norm: false
+# ماژول‌های مدل
+modules:
+  compute_features: *id001
+  embedding_model: *id002
+  classifier: *id003
+  mean_var_norm: *id004
+compute_cost: !new:speechbrain.nnet.losses.LogSoftmaxWrapper
+  loss_fn: !new:speechbrain.nnet.losses.AdditiveAngularMargin
+    margin: 0.2
+    scale: 30
+# اپتیمایزر
+opt_class: !name:torch.optim.Adam
+  lr: 0.0001
+  weight_decay: 0.00002
+# زمان‌بندی یادگیری
+lr_annealing: !new:speechbrain.nnet.schedulers.CyclicLRScheduler
+  mode: exp_range
+  gamma: 0.9998
+  base_lr: 0.000001
+  max_lr: 0.0001
+  step_size: 1088
+# مدیریت چک‌پوینت
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/ECAPA-TDNN/1968/save
+  recoverables:
+    embedding_model: *id002
+    classifier: *id003
+    normalizer: *id004
+    counter: *id005

inference.py ADDED Viewed

	@@ -0,0 +1,103 @@

+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Minimal inference for SpeechBrain ECAPA-TDNN (ShEMO fine-tuned).
+"""
+import os
+import torch
+import speechbrain as sb
+from hyperpyyaml import load_hyperpyyaml
+from speechbrain.dataio.dataio import read_audio
+# ------------------------------------------------------------------
+# 1) paths
+# ------------------------------------------------------------------
+EXP_DIR = (
+    "/mnt/c/Users/NoteBook/Documents/fineTuningSpeechbrain/recipes/ShEMO/"
+    "emotion_recognition/results(2)/content/results/ECAPA-TDNN/1968"
+)
+HP_FILE  = os.path.join(EXP_DIR, "hyperparams.yaml")
+CKPT_DIR = os.path.join(EXP_DIR, "save")
+# ------------------------------------------------------------------
+# 2) hparams & modules
+# ------------------------------------------------------------------
+with open(HP_FILE) as f:
+    hparams = load_hyperpyyaml(f)
+modules = {
+    "compute_features": hparams["compute_features"],
+    "mean_var_norm"   : hparams["mean_var_norm"],
+    "embedding_model" : hparams["embedding_model"],
+    "classifier"      : hparams["classifier"],
+}
+checkpointer = sb.utils.checkpoints.Checkpointer(
+    checkpoints_dir=CKPT_DIR,
+    recoverables=modules,
+    allow_partial_load=True,
+)
+checkpointer.recover_if_possible()
+# ------------------------------------------------------------------
+# 3) Simple batch container (بدون PaddedBatch)
+# ------------------------------------------------------------------
+class SimpleBatch:
+    def __init__(self, wav, lens):
+        self.sig = (wav, lens)
+    def to(self, device):
+        wav, lens = self.sig
+        self.sig = (wav.to(device), lens.to(device))
+        return self
+# ------------------------------------------------------------------
+# 4) Brain for inference
+# ------------------------------------------------------------------
+class EmoIdBrain(sb.Brain):
+    def compute_forward(self, batch, stage):
+        wavs, lens = batch.sig
+        feats = self.modules.compute_features(wavs)
+        feats = self.modules.mean_var_norm(feats, lens)
+        emb   = self.modules.embedding_model(feats, lens)
+        out   = self.modules.classifier(emb)
+        return out
+device = 'cpu'
+brain  = EmoIdBrain(modules, hparams, run_opts={"device": device},
+                    checkpointer=checkpointer)
+print('dddddddddddddddd')
+# ------------------------------------------------------------------
+# 5) emotion labels (hard-coded)
+# ------------------------------------------------------------------
+IDX2LAB = [
+    "anger",      # 0
+    "sadness",    # 1
+    "neutral",    # 2
+    "surprise",   # 3
+    "happiness",  # 4
+    "fear",       # 5
+]
+# # ------------------------------------------------------------------
+# # 6) predict function
+# # ------------------------------------------------------------------
+def predict(wav_path: str) -> str:
+    wav = torch.tensor(read_audio(wav_path)).float().unsqueeze(0)  # [1,T]
+    lens = torch.tensor([1.0])                                     # full length
+    batch = SimpleBatch(wav, lens).to(device)
+    brain.modules.eval()
+                         # disable dropout if any
+    with torch.no_grad():
+        logits = brain.compute_forward(batch, stage=sb.Stage.TEST)
+    idx = int(logits.argmax(dim=-1))
+    return IDX2LAB[idx]
+# # ------------------------------------------------------------------
+# # 7) run
+# # ------------------------------------------------------------------
+if __name__ == "__main__":
+    WAV_FILE = "shortvoice.wav"   # change to your wav
+    print("Predicted emotion:", predict(WAV_FILE))

save/CKPT+2025-04-21+07-00-58+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+# yamllint disable
+end-of-epoch: true
+error: 0.20416668057441711
+loss: 3.3974924573247933
+unixtime: 1745218858.6184402

save/CKPT+2025-04-21+07-00-58+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95c0499225266093885120979ec7f686a648697370e9d71bd41f01704ca5bea7
+size 49

save/CKPT+2025-04-21+07-00-58+00/classifier.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d117e69c0ad85332c7eb0b4157f99a3b5c76d06a4acf237dcf69fb213002632
+size 3627

save/CKPT+2025-04-21+07-00-58+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7a56873cd771f2c446d369b649430b65a756ba278ff97ec81bb6f55b2e73569
+size 2

save/CKPT+2025-04-21+07-00-58+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84f01dd97c687fb28a296bcc2ef1801446ea7405860595924eb2b5bb634718d1
+size 3

save/CKPT+2025-04-21+07-00-58+00/embedding_model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad046a8e1200e5755afdef0178305671823cbf306a2054476134c3a0da3a9814
+size 22190908

save/CKPT+2025-04-21+07-00-58+00/normalizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92244ada292c7d670d1dc88549e74ed24b3e25e70f27fe443420cf4832d6811b
+size 1578

save/CKPT+2025-04-21+07-00-58+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef0f83b10bd9415fa702f62c75e81130c8f816d1b366e35655ffeffe91be97ec
+size 44165498

save/CKPT+2025-04-21+07-07-30+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,5 @@

+# yamllint disable
+end-of-epoch: true
+error: 0.2291666716337204
+loss: 3.7238532538904106
+unixtime: 1745219250.8527672

save/CKPT+2025-04-21+07-07-30+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cd2e4ff5cb587a5c2c9804f660aa0a4f4497060feaa3a9370cc0df80b1654a4
+size 49

save/CKPT+2025-04-21+07-07-30+00/classifier.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7298d2305a544f2f28efbee7a8d182f6c256eccf12f1afd95f38ea48ee126b66
+size 3627

save/CKPT+2025-04-21+07-07-30+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:624b60c58c9d8bfb6ff1886c2fd605d2adeb6ea4da576068201b6c6958ce93f4
+size 2

save/CKPT+2025-04-21+07-07-30+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84f01dd97c687fb28a296bcc2ef1801446ea7405860595924eb2b5bb634718d1
+size 3

save/CKPT+2025-04-21+07-07-30+00/embedding_model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e227e8ab5607485ac0a8d7bf70466f8c01ea0172af95f2d3f50987b31e6cf57
+size 22190908

save/CKPT+2025-04-21+07-07-30+00/normalizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92244ada292c7d670d1dc88549e74ed24b3e25e70f27fe443420cf4832d6811b
+size 1578

save/CKPT+2025-04-21+07-07-30+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a27a58e33bfe20d69045cf9748af9891fb3285e87b96cd1528d14cc47dabd7f0
+size 44165498