ReopenAI
/

Qwen2.5-14B-SeamlessV2

Audio-Text-to-Text

Model card Files Files and versions Community

ReopenAI commited on 8 days ago

Commit

6fc243e

·

verified ·

1 Parent(s): f88ca16

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ datasets:
 一阶段使用清洗后的WeNet中文数据（约6000小时）进行ASR任务训练，此阶段除文本模型外全部可训练。
 二阶段基于chatgpt-corpus、moss-003-sft-data等数据集的问题，使用Qwen2.5-72B-Instruct-GPTQ-Int4首先继续生成更多轮次的问题，然后使用Qwen2.5-72B-Instruct-GPTQ-Int4生成多轮问题的答案，
 问题使用cosyvoice生成对应音频。生成约620k的多轮语音输入->文本回答数据集。进行语音输入->文本回答的问答任务训练。此阶段除文本模型外全部可训练。
 优势：训练期间文本模型完全冻结，保留原始能力；seamless-m4t-v2-large编码器平均每秒的音频编码成6-7个token，显著小于whisper的50个token。

 一阶段使用清洗后的WeNet中文数据（约6000小时）进行ASR任务训练，此阶段除文本模型外全部可训练。
 二阶段基于chatgpt-corpus、moss-003-sft-data等数据集的问题，使用Qwen2.5-72B-Instruct-GPTQ-Int4首先继续生成更多轮次的问题，然后使用Qwen2.5-72B-Instruct-GPTQ-Int4生成多轮问题的答案，
 问题使用cosyvoice生成对应音频。生成约620k的多轮语音输入->文本回答数据集。进行语音输入->文本回答的问答任务训练。此阶段除文本模型外全部可训练。
+部分数据: https://huggingface.co/datasets/ReopenAI/COIG-Kun-Aug-Audio
 优势：训练期间文本模型完全冻结，保留原始能力；seamless-m4t-v2-large编码器平均每秒的音频编码成6-7个token，显著小于whisper的50个token。