Spaces:
Sleeping
Sleeping
update readme
Browse files
README.md
CHANGED
@@ -10,4 +10,97 @@ pinned: false
|
|
10 |
short_description: 'Une application de classification de texte utilisant OpenAI '
|
11 |
---
|
12 |
|
13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
short_description: 'Une application de classification de texte utilisant OpenAI '
|
11 |
---
|
12 |
|
13 |
+
# BrainBox4 - Système de Classification de Texte
|
14 |
+
|
15 |
+
Cette application gradio est un système de classification de texte basé sur l'IA, optimisé pour le traitement rapide de grands volumes de données.
|
16 |
+
|
17 |
+
## 🚀 Installation
|
18 |
+
|
19 |
+
1. Cloner le dépôt :
|
20 |
+
```bash
|
21 |
+
git clone https://github.com/simon-dharcourt/brainbox4.git
|
22 |
+
cd brainbox4
|
23 |
+
```
|
24 |
+
|
25 |
+
2. Installer les dépendances :
|
26 |
+
```bash
|
27 |
+
pip install -r requirements.txt
|
28 |
+
```
|
29 |
+
|
30 |
+
3. Configurer la clé API OpenAI (optionnel) :
|
31 |
+
- Créer un fichier `.env` à la racine du projet
|
32 |
+
- Ajouter votre clé API : `OPENAI_API_KEY=votre_clé_api`
|
33 |
+
|
34 |
+
## 💻 Utilisation
|
35 |
+
|
36 |
+
1. Lancer l'application :
|
37 |
+
```bash
|
38 |
+
python app.py
|
39 |
+
```
|
40 |
+
|
41 |
+
2. Accéder à l'interface web :
|
42 |
+
- Ouvrir votre navigateur à l'URL indiquée dans la console.
|
43 |
+
|
44 |
+
3. Étapes d'utilisation :
|
45 |
+
- Charger votre fichier Excel ou CSV
|
46 |
+
- Sélectionner les colonnes à classifier
|
47 |
+
- Définir les catégories
|
48 |
+
- Lancer la classification
|
49 |
+
|
50 |
+
## 🏗 Architecture
|
51 |
+
|
52 |
+
```
|
53 |
+
brainbox4/
|
54 |
+
├── app.py # Interface utilisateur
|
55 |
+
├── classifier.py # Classification asynchrone
|
56 |
+
├── config.py # Configuration
|
57 |
+
├── prompts.py # Templates LLM
|
58 |
+
├── utils.py # Utilitaires
|
59 |
+
└── requirements.txt # Dépendances
|
60 |
+
```
|
61 |
+
|
62 |
+
## 🔧 Optimisations de Performance
|
63 |
+
|
64 |
+
### Traitement Parallèle
|
65 |
+
- Exploitation d'`asyncio` pour effectuer des appels API simultanés.
|
66 |
+
- Gestion par lots de 20 textes par requête pour optimiser le débit.
|
67 |
+
|
68 |
+
### Sélection Intelligente du Modèle
|
69 |
+
- **GPT-3.5** : Utilisé par défaut pour moins de 100 textes.
|
70 |
+
- **GPT-3.5-16k** : Adapté pour des volumes de 100 à 500 textes.
|
71 |
+
- **GPT-4** : Préféré pour plus de 500 textes.
|
72 |
+
- Intégration future de modèles hébergés localement pour une flexibilité accrue.
|
73 |
+
|
74 |
+
## 🎨 Optimisations de l'Interface Utilisateur
|
75 |
+
|
76 |
+
### Suggestions Automatiques
|
77 |
+
- Propositions automatiques de catégories et de colonnes basées sur un échantillon de textes.
|
78 |
+
|
79 |
+
### Évaluation et Reclassification
|
80 |
+
- Rapport d'évaluation détaillé après classification : analyse des catégories, détection des incohérences, suggestions d'amélioration.
|
81 |
+
- Proposition de reclassification des textes selon les recommandations du rapport, ajustement des catégories et seuils de confiance pour améliorer la précision.
|
82 |
+
|
83 |
+
|
84 |
+
## ✨ Fonctionnalités Principales
|
85 |
+
|
86 |
+
1. **Classification Rapide**
|
87 |
+
- Traitement parallèle des textes
|
88 |
+
- Support des fichiers Excel/CSV
|
89 |
+
- Scores de confiance
|
90 |
+
|
91 |
+
2. **Interface Simple**
|
92 |
+
- Upload de fichiers
|
93 |
+
- Sélection des colonnes
|
94 |
+
- Visualisation des résultats
|
95 |
+
|
96 |
+
## 🚀 Pistes d'Amélioration
|
97 |
+
|
98 |
+
1. **Déploiement Local**
|
99 |
+
- Utilisation de modèles locaux via LiteLLM
|
100 |
+
- Optimisation des appels aux LLMs pour accélérer la classification
|
101 |
+
|
102 |
+
2. **Interface Avancée**
|
103 |
+
- Application web dédiée (React/Vue)
|
104 |
+
- Système de comptes utilisateurs
|
105 |
+
- Historique des classifications
|
106 |
+
|