Spaces:

hon9kon9ize
/

Cantonese-TTS-playground

Running

Cheng Jed

initial commit

c005bf8 about 1 month ago

4.35 kB

	import requests
	import os
	import io
	from os import path
	from typing import Dict, Literal, TypedDict, Optional
	import argparse
	import asyncio
	import base64

	# Environment variables
	TTS_CLIENT_ID = os.environ.get('TTS_CLIENT_ID')
	TTS_CLIENT_SECRET = os.environ.get('TTS_CLIENT_SECRET')
	TTS_API_URL = os.environ.get('TTS_API_URL')


	if not TTS_CLIENT_ID or not TTS_CLIENT_SECRET or not TTS_API_URL:
	raise ValueError('Missing environment variables')

	class TaskResult(TypedDict):
	task_id: str
	message: str
	status: Literal['PENDING', 'SUCCESS', 'FAILED']
	audio_url: str # base64 encoded wav audio

	class Voice(TypedDict):
	name: str
	promptText: str
	promptAudio: str

	voices: Dict[str, Voice] = {
	"mk_girl": {
	"name": "👧 凱婷",
	"promptText": "我決定咗啦，我要做一件到目前為止又或者永遠都唔會再見到我做嘅事。",
	"promptAudio": path.join(path.dirname(__file__), "./voices/mk_girl.wav")
	},
	"doraemon": {
	"name": "🥸 全叔",
	"promptText": "各位觀眾大家好，我叮噹呢又同你哋見面啦。好多謝咁多年嚟各位嘅捧場同支持。",
	"promptAudio": path.join(path.dirname(__file__), "./voices/doraemon3.wav")
	},
	"周星馳": {
	"name": "😈 星爺",
	"promptText": "大家好啊，想唔想同我做好朋友啊。",
	"promptAudio": path.join(path.dirname(__file__), "./voices/sing.mp3")
	}
	}

	async def tts(input_text: str, voice: Voice) -> str:
	"""
	Send TTS request with voice information

	Args:
	input_text: Text to be converted to speech
	voice: Voice configuration

	Returns:
	task_id: ID of the TTS task
	"""
	files = {
	'input_text': (None, input_text),
	'prompt_text': (None, voice['promptText']),
	'audio': ('prompt.wav', open(voice['promptAudio'], 'rb')),
	'speed': (None, '1.0')
	}

	headers = {
	'CF-Access-Client-Id': TTS_CLIENT_ID,
	'CF-Access-Client-Secret': TTS_CLIENT_SECRET
	}

	response = requests.post(f"{TTS_API_URL}/api/tts",
	files=files,
	headers=headers)

	response.raise_for_status()
	return response.json()['task_id']

	async def get_task_result(task_id: str) -> TaskResult:
	"""
	Get result of TTS task

	Args:
	task_id: ID of the TTS task

	Returns:
	Task result information
	"""
	headers = {
	'Content-Type': 'application/json',
	'CF-Access-Client-Id': TTS_CLIENT_ID,
	'CF-Access-Client-Secret': TTS_CLIENT_SECRET
	}

	response = requests.get(f"{TTS_API_URL}/api/tts/{task_id}",
	headers=headers)

	response.raise_for_status()
	return response.json()


	async def main():
	parser = argparse.ArgumentParser(description='Text-to-Speech with CosyVoice')
	parser.add_argument('--text', help='Text to convert to speech')
	parser.add_argument('--voice', '-v', choices=list(voices.keys()), default='mk_girl',
	help='Voice to use for synthesis')
	parser.add_argument('--output', '-o', default='output.wav',
	help='Output audio file path')

	args = parser.parse_args()
	voice = voices[args.voice]

	print(f"Converting text to speech using voice: {voice['name']}")
	print(f"Text: {args.text}")

	try:
	task_id = await tts(args.text, voice)
	print(f"TTS request submitted. Task ID: {task_id}")

	while True:
	result = await get_task_result(task_id)
	if result['status'] != 'PENDING':
	break
	print("Waiting for TTS processing...")
	await asyncio.sleep(1)

	if result['status'] == 'SUCCESS':
	audio_data = result['audio_url']
	if ',' in audio_data:
	audio_data = audio_data.split(',')[1]

	with open(args.output, 'wb') as f:
	f.write(base64.b64decode(audio_data))
	print(f"Audio saved to {args.output}")
	else:
	print(f"TTS generation failed: {result['message']}")
	except Exception as e:
	print(f"Error: {str(e)}")

	if __name__ == "__main__":
	asyncio.run(main())