Spaces:

avsv
/

audio-emotion-analyzer

Sleeping

App Files Files Community

avsv commited on Apr 6

Commit

936f253

1 Parent(s): c4f284d

✅ Fix: use correct extractor for superb/wav2vec2-base-superb-er

Browse files

Files changed (1) hide show

app.py +6 -12

app.py CHANGED Viewed

@@ -2,18 +2,16 @@ import streamlit as st
 import torch
 import torchaudio
 import tempfile
-from transformers import Wav2Vec2Processor, Wav2Vec2ForSequenceClassification
 from pydub import AudioSegment
-# Load model + processor (cached for performance)
 @st.cache_resource
 def load_model():
-    processor = Wav2Vec2Processor.from_pretrained("superb/wav2vec2-base-superb-er")
     model = Wav2Vec2ForSequenceClassification.from_pretrained("superb/wav2vec2-base-superb-er")
     model.eval()
-    return processor, model
-# Convert MP3/WAV to 16kHz mono WAV
 def convert_to_wav(uploaded_file):
     audio = AudioSegment.from_file(uploaded_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
@@ -21,29 +19,26 @@ def convert_to_wav(uploaded_file):
     audio.export(temp_path, format="wav")
     return temp_path
-# Map prediction index to emotion label
 def get_emotion_label(logits):
     emotions = ["angry", "happy", "neutral", "sad"]
     scores = torch.softmax(torch.tensor(logits), dim=0).tolist()
     top_idx = scores.index(max(scores))
     return emotions[top_idx], scores
-# Analyze emotion from audio
 def analyze_emotion(audio_path):
-    processor, model = load_model()
     waveform, sr = torchaudio.load(audio_path)
     if sr != 16000:
         waveform = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)(waveform)
-    inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
     with torch.no_grad():
         logits = model(**inputs).logits[0]
     emotion, scores = get_emotion_label(logits)
     return emotion.capitalize(), scores
-# --- Streamlit UI ---
 st.set_page_config(page_title="🎧 Audio Emotion Detector", layout="centered")
 st.title("🎧 Audio Emotion Analysis (Wav2Vec2)")
@@ -62,4 +57,3 @@ if uploaded_file:
         emotions = ["angry", "happy", "neutral", "sad"]
         for i, label in enumerate(emotions):
             st.write(f"- **{label.capitalize()}**: {scores[i]*100:.2f}%")

 import torch
 import torchaudio
 import tempfile
 from pydub import AudioSegment
+from transformers import AutoFeatureExtractor, Wav2Vec2ForSequenceClassification
 @st.cache_resource
 def load_model():
+    extractor = AutoFeatureExtractor.from_pretrained("superb/wav2vec2-base-superb-er")
     model = Wav2Vec2ForSequenceClassification.from_pretrained("superb/wav2vec2-base-superb-er")
     model.eval()
+    return extractor, model
 def convert_to_wav(uploaded_file):
     audio = AudioSegment.from_file(uploaded_file)
     audio = audio.set_frame_rate(16000).set_channels(1)
     audio.export(temp_path, format="wav")
     return temp_path
 def get_emotion_label(logits):
     emotions = ["angry", "happy", "neutral", "sad"]
     scores = torch.softmax(torch.tensor(logits), dim=0).tolist()
     top_idx = scores.index(max(scores))
     return emotions[top_idx], scores
 def analyze_emotion(audio_path):
+    extractor, model = load_model()
     waveform, sr = torchaudio.load(audio_path)
     if sr != 16000:
         waveform = torchaudio.transforms.Resample(orig_freq=sr, new_freq=16000)(waveform)
+    inputs = extractor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt")
     with torch.no_grad():
         logits = model(**inputs).logits[0]
     emotion, scores = get_emotion_label(logits)
     return emotion.capitalize(), scores
+# Streamlit UI
 st.set_page_config(page_title="🎧 Audio Emotion Detector", layout="centered")
 st.title("🎧 Audio Emotion Analysis (Wav2Vec2)")
         emotions = ["angry", "happy", "neutral", "sad"]
         for i, label in enumerate(emotions):
             st.write(f"- **{label.capitalize()}**: {scores[i]*100:.2f}%")