TurboPascal commited on
Commit
0914cfa
·
verified ·
1 Parent(s): c7e9223

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -0
README.md CHANGED
@@ -15,6 +15,8 @@ language:
15
 
16
  ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
17
 
 
 
18
  ## 训练细节
19
 
20
  - **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。
 
15
 
16
  ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
17
 
18
+ 训练代码地址:https://github.com/enze5088/ChineseModernBert
19
+
20
  ## 训练细节
21
 
22
  - **硬件配置**:笔者训练资源有限,本次训练使用了3\*8\*A100,预训练时间为58小时左右。