Spaces:
Running
on
Zero
Running
on
Zero
File size: 2,371 Bytes
f0e4d3b 576f843 f0e4d3b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
## 登録可能なモデルの要件
登録可能なモデルは、Hugging Faceのモデルハブで公開されているPyTorchベースのモデルで、transformersライブラリのgenerate APIに対応している必要があります。
重みのファイル形式はsafetensorsのみで、量子化する場合はBitsAndBytesのバージョン0.44.1以降で量子化されている必要があります。
tokenizer_config.jsonで正しくchat_templateが設定されている必要があります。
パラメータ数ではなく、重みのファイルのサイズが5GB未満または10GB未満で階級ごとに分かれてリーダーボードが作れます。
- **GPU環境**: HF SpacesのZeroGPU A100(40GB)
- **LLM実行環境**: transformersライブラリ(4.50.0)
- **量子化**: BitsAndBytesのみ対応(0.44.1)
- **ファイル形式**: safetensorsのみ
- **ファイルサイズ**: 5GB又は10GB未満
- **チャットテンプレート**: chat_template設定が必要(tokenizer_config.json)
非量子化モデルでもファイルサイズ制限をクリアすれば登録可能ですが、サーバーの負荷低減のためにBitsAndBytesによる量子化を推奨します。
将来的には、llama.cppの実行環境でGGUF形式に対応する予定です。
## モデルの登録方法
このページの一番下にある、モデルの新規登録フォームから登録できます。
モデルIDとエントリーしたいファイルサイズ区分を選択してロードテストボタンを押して下さい。
### ① ロードテスト
ロードテストではファイル形式やサイズなどのチェックが行われます。
### ② チャットテスト
チャットテストでは簡単な日本語応答が出来るかチェックが行われます。
### ③ 登録
ロードテストとチャットテストをクリアしたモデルだけ登録可能です。
登録が完了すると、登録済みモデル一覧にあなたのモデルが表示されます。
## 量子化サンプルコード
サンプルコードは[こちら](https://huggingface.co/fukugawa/gemma-2-9b-finetuned-bnb-4bit)
量子化後のモデルIDは任意の名前が可能ですが、以下の形式を推奨します。
* BitsAndBytesの4bit量子化の場合
```
[量子化前のモデルID]-bnb-4bit
``` |