TurboPascal commited on
Commit
6218cf7
·
verified ·
1 Parent(s): d643ce3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -24
README.md CHANGED
@@ -1,24 +1,29 @@
1
- ---
2
- license: apache-2.0
3
- ---
4
-
5
- # ChineseModernBert
6
-
7
- 在自然语言处理领域,[BERT](https://huggingface.co/papers/1810.04805)自 2018 年发布以来,凭借其在语言理解和生成任务上的卓越表现,一直被广泛应用。然而,随着时间的推移,无论是中文还是英文的常用 Bert 模型,由于其发布时间距今已有 5 - 6 年,在模型架构和训练数据方面都逐渐显露出陈旧的问题。
8
-
9
- 近期,**ModernBERT**在 12 月19日左右发布,为自然语言处理领域带来了新的活力。但目前该模型主要面向英文用户,对于中文用户来说,其适用性存在一定的局限性。为了填补这一空白,满足中文自然语言处理任务的需求,笔者精心构建了基于中文语料的 ModelBert 中文版本模型。
10
-
11
- ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
12
-
13
- ## 训练细节
14
-
15
- - **硬件配置**:笔者训练资源有限,本次训练使用了2\*8\*A100,预训练时间为58小时左右。
16
- - **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
17
- - **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
18
- - **Batch Size**:单卡Batch Size 设置为4,总Batch size为64 。
19
- - **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
20
- - **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
21
-
22
- ## 开源协议
23
-
24
- ModelBert 遵循 Apache 2.0 开源协议发布。这意味着你可以自由地使用、修改和分发该模型,但请务必遵守开源协议中的相关规定,并在使用过程中保留模型的版权声明。
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - BAAI/CCI3-HQ
5
+ language:
6
+ - en
7
+ - zh
8
+ ---
9
+
10
+ # ChineseModernBert
11
+
12
+ 在自然语言处理领域,[BERT](https://huggingface.co/papers/1810.04805)自 2018 年发布以来,凭借其在语言理解和生成任务上的卓越表现,一直被广泛应用。然而,随着时间的推移,无论是中文还是英文的常用 Bert 模型,由于其发布时间距今已有 5 - 6 年,在模型架构和训练数据方面都逐渐显露出陈旧的问题。
13
+
14
+ 近期,**ModernBERT**在 12 月19日左右发布,为自然语言处理领域带来了新的活力。但目前该模型主要面向英文用户,对于中文用户来说,其适用性存在一定的局限性。为了填补这一空白,满足中文自然语言处理任务的需求,笔者精心构建了基于中文语料的 ModelBert 中文版本模型。
15
+
16
+ ModelBert 是一个专门基于中文预训练语料进行训练的预训练模型。在训练过程中,选用了高质量的[C](https://huggingface.co/datasets/BAAI/CCI3-HQ)[CI3-](https://huggingface.co/datasets/BAAI/CCI3-HQ)[HQ](https://huggingface.co/datasets/BAAI/CCI3-HQ)数据集进行 1epoch 的预训练。CCI3-HQ 数据集包含了丰富多样的中文文本,涵盖了新闻资讯、文学作品、学术论文、社交媒体内容等多个领域,这使得 ModelBert 能够学习到全面且深入的中文语言特征和语义信息。
17
+
18
+ ## 训练细节
19
+
20
+ - **硬件配置**:笔者训练资源有限,本次训练使用了2\*8\*A100,预训练时间为58小时左右。
21
+ - **优化器与学习率**:优化器采用adamw,初始学习率设置为 1e-4。learning rate scheduler 采用余弦退火。后续可能采用WSD等学习率计划从新优化。
22
+ - **Tokenizer**:Tokenizer 选用了 Qwen2.5 系列。
23
+ - **Batch Size**:单卡Batch Size 设置为4,总Batch size为64 。
24
+ - **上下文长度**:上下文长度设置为 4096,并采用packing等策略。
25
+ - **训练策略**:采用了 Packing 等策略。MLM比率设置为0.3.
26
+
27
+ ## 开源协议
28
+
29
+ ModelBert 遵循 Apache 2.0 开源协议发布。这意味着你可以自由地使用、修改和分发该模型,但请务必遵守开源协议中的相关规定,并在使用过程中保留模型的版权声明。