Spaces:

JinhuaL1ANG
/

AudioMorphix

Running on Zero

9a6dac6 2 months ago

14.2 kB

	import os
	import torch
	import torchaudio
	from torch import Tensor
	from typing import Any, Callable, List
	from random import randint, uniform, betavariate


	class NaiveAudioProcessor:
	__doc__ = r"""A naive processor for audio processor."""

	def __call__(self, filename, filename2=None):
	return self.extract_features(filename, filename2)

	def extract_features(self, filename, filename2=None):
	r"""Dummy func to extract features."""
	return {}

	@staticmethod
	def torchaudio_to_byte(
	audio: torch.Tensor,
	sampling_rate: int,
	cache_path="./.tmp.flac",
	):
	torchaudio.save(
	filepath=cache_path,
	src=audio,
	sample_rate=sampling_rate,
	)

	with open(cache_path, "rb") as f:
	audio_stream = f.read()

	os.remove(cache_path)

	return audio_stream


	class WaveformAudioProcessor(NaiveAudioProcessor):
	__doc__ = r"""A processor to load wavform from audio files."""

	def __init__(
	self,
	sampling_rate: int = 16000,
	duration: float = 10.24,
	normalize: bool = True,
	trim_wav: bool = True,
	transforms: List[Callable] = [],
	):
	self.sampling_rate = sampling_rate
	self.audio_duration = duration
	self.normalize = normalize
	self.trim_wav = trim_wav
	# Data augmentation
	self.transforms = transforms

	def extract_features(self, filename, filename2=None):
	r"""Return waveform."""
	wav = self.load_wav(
	filename,
	sampling_rate=self.sampling_rate,
	normalize=self.normalize,
	trim_wav=self.trim_wav,
	)

	# Mix two wavs if `filename2` is given
	if filename2 is not None:
	wav2 = self.load_wav(
	filename2,
	sampling_rate=self.sampling_rate,
	normalize=self.normalize,
	trim_wav=self.trim_wav,
	)
	mixture, mix_lambda = self.mix_wavs(wav, wav2)
	else:
	mixture = wav

	# Data augmentatioin if applicable
	if len(self.transforms) > 0:
	for transform in self.transforms:
	mixture = transform(mixture)

	return {"waveform": mixture}

	def load_wav(
	self,
	wav_file: str,
	sampling_rate: int = 16000,
	normalize: bool = True,
	trim_wav: bool = False,
	) -> list:
	r"""Return (torch.Tensor, float), Tensor shape = (c, n_temporal_step)."""
	audio, sr = torchaudio.load(wav_file)

	# Resample the audio if `resample` = True
	if sr != sampling_rate:
	audio = torchaudio.functional.resample(
	audio,
	orig_freq=sr,
	new_freq=self.sampling_rate,
	)

	# Detect the activate clip from audio if `trim_wav` = True
	if trim_wav:
	audio = self.maybe_trim_wav(audio)

	# Uniform the length of output wavs
	target_length = int(self.audio_duration * sr)
	if len(audio) < target_length:
	audio = self.pad_wav(audio, target_length, pad_last=True)
	elif len(audio) > target_length:
	audio = self.segment_wav(audio, target_length, truncation="right")

	# Z-nomalize the output wavs if `normalize` = True
	if normalize:
	try:
	audio = self.normalize_wav(audio)
	except RuntimeError as e:
	print(f"{e}: {wav_file} is empty.")

	return audio

	@staticmethod
	def normalize_wav(waveform: Tensor, eps=torch.tensor(1e-8)):
	r"""Return wavform with mean=0, std=0.5."""
	waveform = waveform - waveform.mean()
	waveform = waveform / torch.max(waveform.abs() + eps)

	return waveform * 0.5 # manually limit the maximum amplitude into 0.5

	@staticmethod
	def mix_wavs(waveform1, waveform2, alpha=10, beta=10):
	mix_lambda = betavariate(alpha, beta)
	mix_waveform = mix_lambda * waveform1 + (1 - mix_lambda) * waveform2

	return __class__.normalize_wav(mix_waveform), mix_lambda

	@staticmethod
	def split_wavs(waveform, target_length, padding_mode="zeros"):
	r"""Split wav into several pieces with the length `target_length`.
	Args: `waveform` is a 2d channel-first tensor.
	"""
	segmented_wavs = []
	n_channels, wav_length = waveform.size()
	for stt_idx in range(0, wav_length, target_length):
	end_idx = stt_idx + target_length
	if end_idx > wav_length:
	# NOTE: Drop the last seg if it is too short
	if (wav_length - stt_idx) < 0.1 * target_length:
	break
	# Pad the last seg with the content in the previous one
	if padding_mode == "replicate":
	segmented_wavs.append(waveform[:, -target_length:])
	else:
	assert padding_mode == "zeros"
	_tmp_wav = waveform[:, stt_idx:]
	_padded_wav = torch.zeros(n_channels, wav_length)
	_padded_wav[:, : _tmp_wav.size(dim=-1)] += _tmp_wav
	segmented_wavs.append(_padded_wav)
	else:
	segmented_wavs.append(waveform[:, stt_idx:end_idx])

	return segmented_wavs

	@staticmethod
	def segment_wav(
	waveform,
	target_length,
	truncation="right",
	):
	r"""Return semented wav of `target_length` and the start time of the segmentation."""
	assert truncation in ["left", "right", "random"]

	waveform_length = waveform.shape[-1]
	assert waveform_length > 100, "Waveform is too short, %s" % waveform_length

	# Too short
	if (waveform_length - target_length) <= 0:
	return waveform, 0

	# Try at most 10 times to find a valid start index
	for i in range(10):
	if truncation == "left":
	start_index = waveform_length - target_length
	elif truncation == "right":
	start_index = 0
	else:
	start_index = randint(0, waveform_length - target_length)

	if torch.max(
	torch.abs(waveform[:, start_index : start_index + target_length]) > 1e-4
	):
	break

	return waveform[:, start_index : start_index + target_length], start_index

	@staticmethod
	def pad_wav(waveform, target_length, pad_last=True):
	waveform_length = waveform.shape[-1]
	assert waveform_length > 100, "Waveform is too short, {waveform_length}"

	if waveform_length == target_length:
	return waveform

	# Pad
	output_wav = torch.zeros((1, target_length), dtype=torch.float32)

	if not pad_last:
	rand_start = randint(0, target_length - waveform_length)
	else:
	rand_start = 0

	output_wav[:, rand_start : rand_start + waveform_length] = waveform
	return output_wav

	@staticmethod
	def maybe_trim_wav(waveform):
	r"""Trim the wav by remove the silence part."""
	if waveform.abs().max() < 0.0001:
	return waveform

	def detect_leading_silence(waveform, threshold=1e-4):
	chunk_size = 1000
	waveform_length = waveform.shape[0]

	start = 0
	while start + chunk_size < waveform_length:
	if waveform[start : start + chunk_size].abs().max() < threshold:
	start += chunk_size
	else:
	break

	return start

	def detect_ending_silence(waveform, threshold=1e-4):
	chunk_size = 1000
	waveform_length = waveform.shape[0]
	start = waveform_length

	while start - chunk_size > 0:
	if waveform[start - chunk_size : start].abs().max() < threshold:
	start -= chunk_size
	else:
	break

	if start == waveform_length:
	return start
	else:
	return start + chunk_size

	start = detect_leading_silence(waveform)
	end = detect_ending_silence(waveform)

	return waveform[start:end]


	class FbankAudioProcessor(WaveformAudioProcessor):
	def __init__(
	self,
	# Fbank setting
	n_frames: int = 1024,
	n_mels: int = 128,
	# Waveform setting
	sampling_rate: int = 16000,
	duration: float = 10.24,
	normalize: bool = True,
	trim_wav: bool = True,
	# Data augmentation
	transforms: List[Callable] = [],
	):
	super().__init__(sampling_rate, duration, normalize, trim_wav)
	self.n_frames = n_frames
	self.n_mels = n_mels
	# Data augmentation
	self.transforms = transforms

	def extract_features(self, filename, filename2=None):
	wav = self.load_wav(
	filename,
	sampling_rate=self.sampling_rate,
	normalize=self.normalize,
	trim_wav=self.trim_wav,
	)

	# Mix two wavs if `filename2` is given
	if filename2 is not None:
	wav2 = self.load_wav(
	filename2,
	sampling_rate=self.sampling_rate,
	normalize=self.normalize,
	trim_wav=self.trim_wav,
	)
	mixture, mix_lambda = self.mix_wavs(wav, wav2)
	else:
	mixture = wav

	# Get fbank from the `mixture`
	# shape of `fbank` = (`n_frames`, `n_mels`)
	fbank = self.wav2fbank(
	mixture,
	self.n_frames,
	self.n_mels,
	self.sampling_rate,
	)

	# Transform fbank for data augemtnation if applicable
	if len(self.transforms) > 0:
	for transform in self.transforms:
	fbank = transform(fbank)

	return {"waveform": mixture, "fbank": fbank}

	def wav2fbank(
	self,
	wav,
	n_frames=1024,
	n_mels=128,
	sampling_rate=16000,
	norm_mean=-4.2677393,
	norm_std=4.5689974,
	):
	try:
	fbank = torchaudio.compliance.kaldi.fbank(
	wav,
	htk_compat=True,
	sample_frequency=sampling_rate,
	use_energy=False,
	window_type="hanning",
	num_mel_bins=n_mels,
	dither=0.0,
	frame_shift=10,
	)
	except AssertionError as e:
	fbank = torch.zeros([n_frames, n_mels]) + 0.01
	print(f"A empty fbank loaded as {e}.")

	# Cut and pad to the length of `n_frames`
	return self.pad_or_clip_fbank(fbank, n_frames)

	@staticmethod
	def pad_fbank(fbank, padding_length):
	m = torch.nn.ZeroPad2d((0, 0, 0, padding_length))
	return m(fbank)

	@staticmethod
	def clip_fbank(fbank, target_length):
	return fbank[0:target_length, :]

	@staticmethod
	def pad_or_clip_fbank(fbank, target_length):
	p = target_length - fbank.shape[0] # target_length - curr_n_frames
	if p > 0:
	return __class__.pad_fbank(fbank, p)
	else:
	return __class__.clip_fbank(fbank, target_length)


	class AddGaussianNoise:
	def __init__(self, noise_magnitude=uniform(0, 1) * 0.1):
	self.noise_magnitude = noise_magnitude

	def __call__(self, fbank):
	d0, d1 = fbank.size()
	return fbank + torch.rand(d0, d1) * self.noise_magnitude


	class TimeRolling:
	def __init__(self, rolling_step=None):
	self.rs = rolling_step

	def __call__(self, fbank):
	return torch.roll(fbank, randint(-self.rs, self.rs - 1), 0)


	class FbankTimeMasking:
	__doc__ = r"""Masking the time dimension of fbank for data augmentation
	with the length ranged of (0, `timem`)."""

	def __init__(self, timem: int = 0):
	from torchaudio.transforms import TimeMasking

	self.mask_fn = TimeMasking(timem)

	def __call__(self, fbank) -> Tensor:
	fbank = torch.transpose(fbank, 0, 1)
	fbank = fbank.unsqueeze(0)

	fbank = self.mask_fn(fbank)

	fbank = fbank.squeeze(0)
	fbank = torch.transpose(fbank, 0, 1)
	return fbank


	class FbankFrequencyMasking:
	__doc__ = r"""Masking the frequency dimension of fbank for data augmentation
	with the length ranged of (0, `freqm`)."""

	def __init__(self, freqm: int = 0):
	from torchaudio.transforms import FrequencyMasking

	self.mask_fn = FrequencyMasking(freqm)

	def __call__(self, fbank) -> Tensor:
	fbank = torch.transpose(fbank, 0, 1)
	fbank = fbank.unsqueeze(0)

	fbank = self.mask_fn(fbank)

	fbank = fbank.squeeze(0)
	fbank = torch.transpose(fbank, 0, 1)
	return fbank


	class SpecAugment:
	__doc__ = r"""Masking the time & frequency dimension of fbank for data augmentation
	with the length ranged of (0, `timem`), (0, `freqm`), respectively."""

	def __init__(self, timem: int = 0, freqm: int = 0) -> None:
	from torchaudio.transforms import TimeMasking, FrequencyMasking

	self.time_mask_fn = TimeMasking(timem)
	self.freq_mask_fn = FrequencyMasking(freqm)

	def __call__(self, fbank) -> Tensor:
	fbank = torch.transpose(fbank, 0, 1)
	fbank = fbank.unsqueeze(0)

	fbank = self.time_mask_fn(fbank)
	fbank = self.freq_mask_fn(fbank)

	fbank = fbank.squeeze(0)
	fbank = torch.transpose(fbank, 0, 1)
	return fbank


	if __name__ == "__main__":
	import debugger

	wav_file = (
	"/mnt/bn/lqhaoheliu/datasets/audioset/zip_audios/eval_segments/Y-53zl3bPmpM.wav"
	)
	wav_file2 = (
	"/mnt/bn/lqhaoheliu/datasets/audioset/zip_audios/eval_segments/Y-6Aq2fJwlgU.wav"
	)

	audio_processor = FbankAudioProcessor(transforms=[SpecAugment(1024, 128)])
	# print(audio_processor(wav_file, wav_file2)[0].shape)
	# print(audio_processor(wav_file, wav_file2)[1].shape)
	print(audio_processor(wav_file, wav_file2)[1])