Spaces:

qgyd2021
/

nx_denoise

Running

HoneyTian commited on Mar 24

Commit

515f154

1 Parent(s): 9b1d5cc

update

Files changed (2) hide show

toolbox/torch/utils/data/dataset/denoise_excel_dataset.py CHANGED Viewed

@@ -18,11 +18,13 @@ class DenoiseExcelDataset(Dataset):
                  expected_sample_rate: int,
                  resample: bool = False,
                  max_wave_value: float = 1.0,
                  ):
         self.excel_file = excel_file
         self.expected_sample_rate = expected_sample_rate
         self.resample = resample
         self.max_wave_value = max_wave_value
         self.samples = self.load_samples(excel_file)
@@ -77,7 +79,7 @@ class DenoiseExcelDataset(Dataset):
         mix_wave, noise_wave_adjusted = self.mix_speech_and_noise(
             speech=speech_wave.numpy(),
             noise=noise_wave.numpy(),
-            snr_db=snr_db,
         )
         mix_wave = torch.tensor(mix_wave, dtype=torch.float32)
         noise_wave_adjusted = torch.tensor(noise_wave_adjusted, dtype=torch.float32)
@@ -108,7 +110,7 @@ class DenoiseExcelDataset(Dataset):
         return waveform
     @staticmethod
-    def mix_speech_and_noise(speech: np.ndarray, noise: np.ndarray, snr_db: float):
         l1 = len(speech)
         l2 = len(noise)
         l = min(l1, l2)
@@ -120,7 +122,7 @@ class DenoiseExcelDataset(Dataset):
         speech_power = np.mean(np.square(speech))
         noise_power = speech_power / (10 ** (snr_db / 10))
-        noise_adjusted = np.sqrt(noise_power) * noise / np.sqrt(np.mean(noise ** 2))
         noisy_signal = speech + noise_adjusted

                  expected_sample_rate: int,
                  resample: bool = False,
                  max_wave_value: float = 1.0,
+                 eps: float = 1e-8,
                  ):
         self.excel_file = excel_file
         self.expected_sample_rate = expected_sample_rate
         self.resample = resample
         self.max_wave_value = max_wave_value
+        self.eps = eps
         self.samples = self.load_samples(excel_file)
         mix_wave, noise_wave_adjusted = self.mix_speech_and_noise(
             speech=speech_wave.numpy(),
             noise=noise_wave.numpy(),
+            snr_db=snr_db, eps=self.eps,
         )
         mix_wave = torch.tensor(mix_wave, dtype=torch.float32)
         noise_wave_adjusted = torch.tensor(noise_wave_adjusted, dtype=torch.float32)
         return waveform
     @staticmethod
+    def mix_speech_and_noise(speech: np.ndarray, noise: np.ndarray, snr_db: float, eps: float = 1e-8):
         l1 = len(speech)
         l2 = len(noise)
         l = min(l1, l2)
         speech_power = np.mean(np.square(speech))
         noise_power = speech_power / (10 ** (snr_db / 10))
+        noise_adjusted = np.sqrt(noise_power) * noise / (np.sqrt(np.mean(noise ** 2)) + eps)
         noisy_signal = speech + noise_adjusted

toolbox/torch/utils/data/dataset/denoise_jsonl_dataset.py CHANGED Viewed

@@ -22,11 +22,13 @@ class DenoiseJsonlDataset(IterableDataset):
                  resample: bool = False,
                  max_wave_value: float = 1.0,
                  buffer_size: int = 1000,
                  ):
         self.jsonl_file = jsonl_file
         self.expected_sample_rate = expected_sample_rate
         self.resample = resample
         self.max_wave_value = max_wave_value
         self.buffer_size = buffer_size
         self.buffer_samples: List[dict] = list()
@@ -106,7 +108,7 @@ class DenoiseJsonlDataset(IterableDataset):
         mix_wave, noise_wave_adjusted = self.mix_speech_and_noise(
             speech=speech_wave.numpy(),
             noise=noise_wave.numpy(),
-            snr_db=snr_db,
         )
         mix_wave = torch.tensor(mix_wave, dtype=torch.float32)
         noise_wave_adjusted = torch.tensor(noise_wave_adjusted, dtype=torch.float32)
@@ -134,7 +136,7 @@ class DenoiseJsonlDataset(IterableDataset):
         return waveform
     @staticmethod
-    def mix_speech_and_noise(speech: np.ndarray, noise: np.ndarray, snr_db: float):
         l1 = len(speech)
         l2 = len(noise)
         l = min(l1, l2)
@@ -146,7 +148,7 @@ class DenoiseJsonlDataset(IterableDataset):
         speech_power = np.mean(np.square(speech))
         noise_power = speech_power / (10 ** (snr_db / 10))
-        noise_adjusted = np.sqrt(noise_power) * noise / np.sqrt(np.mean(noise ** 2))
         noisy_signal = speech + noise_adjusted

                  resample: bool = False,
                  max_wave_value: float = 1.0,
                  buffer_size: int = 1000,
+                 eps: float = 1e-8,
                  ):
         self.jsonl_file = jsonl_file
         self.expected_sample_rate = expected_sample_rate
         self.resample = resample
         self.max_wave_value = max_wave_value
+        self.eps = eps
         self.buffer_size = buffer_size
         self.buffer_samples: List[dict] = list()
         mix_wave, noise_wave_adjusted = self.mix_speech_and_noise(
             speech=speech_wave.numpy(),
             noise=noise_wave.numpy(),
+            snr_db=snr_db, eps=self.eps,
         )
         mix_wave = torch.tensor(mix_wave, dtype=torch.float32)
         noise_wave_adjusted = torch.tensor(noise_wave_adjusted, dtype=torch.float32)
         return waveform
     @staticmethod
+    def mix_speech_and_noise(speech: np.ndarray, noise: np.ndarray, snr_db: float, eps: float = 1e-8):
         l1 = len(speech)
         l2 = len(noise)
         l = min(l1, l2)
         speech_power = np.mean(np.square(speech))
         noise_power = speech_power / (10 ** (snr_db / 10))
+        noise_adjusted = np.sqrt(noise_power) * noise / (np.sqrt(np.mean(noise ** 2)) + eps)
         noisy_signal = speech + noise_adjusted