File size: 2,869 Bytes
3440f83
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
---
tasks:
- multi-modal-embedding
- image-text-retrieval
domain:
- multi-modal
frameworks:
- pytorch
backbone:
- transformers
metrics:
- R@1
license: apache-2.0
tags:
- Ant Group
- multi-modal-embedding
widgets:
  - inputs:
      - validator:
          max_words: 52
        type: text
        title: 查询文本
    output:
      maximize: false
    examples:
      - name: 1
        inputs:
          - data: 戴眼镜的猫
      - name: 2
        inputs:
          - data: 一个在逛公园的女孩
    task: multi-modal-embedding
---

## 模型描述
M2-Encoder是强大的中英双语多模态模型,它在我们构建的包含60亿图文对(30亿中文+30亿英文)的BM-6B上训练得到,支持zero-shot 图文跨模态检索(文搜图、图搜文) 以及 zero-shot图片分类 任务。

模型效果如下:

![M2-Encoder](./res/effect.png)

## 期望模型使用方式以及适用范围
本模型主要用于:
1. 图片检索文本,或文本检索图片: 以文本检索图片为例,使用M2-Encoder提前对所有图片底库进行特征抽取,给定文本query,使用M2-Encoder对query文本进行特征抽取, 然后和图片底库保存的特征进行相似度计算。
2. 图片zero-shot开集分类: 给定图像以及对应的标签列表,根据图像和标签相似度,输出与图像最匹配的标签。


## 如何使用

### 代码范例
```
# 新建环境(Python版本3.8)
conda create -n m2-encoder python=3.8
source activate m2-encoder

# clone项目地址
cd /YourPath/
git clone https://github.com/alipay/Ant-Multi-Modal-Framework

# 安装包依赖
cd ./Ant-Multi-Modal-Framework/prj/M2_Encoder/
pip install -r requirements.txt

# 运行demo,会自动通过model_scope下载对应模型权重
python run.py
```

### 模型局限性以及可能的偏差
模型在数据集上训练,有可能产生一些偏差,请用户自行评测后决定如何使用。

## 训练数据介绍
BM-6B数据集: 包含60亿清洗后的高质量中英双语图文对数据,其中文和英文数据比例基本保持一致,均为30亿。数据集搜集、构建过程详见[技术报告](https://arxiv.org/abs/2401.15896)。

## 模型训练流程
暂时不支持通过ModelScope接口进行训练,敬请期待。


### 训练
暂不支持。
## 数据评估及结果
zero-shot图文跨模态检索和zero-shot分类任务均达到SOTA.



### 相关论文以及引用信息
如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:
```
@misc{guo2024m2encoder,
      title={M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining}, 
      author={Qingpei Guo and Furong Xu and Hanxiao Zhang and Wang Ren and Ziping Ma and Lin Ju and Jian Wang and Jingdong Chen and Ming Yang},
      year={2024},
      url={https://arxiv.org/abs/2401.15896},
}
```