simondh commited on
Commit
53ce8ef
·
1 Parent(s): 52fc8fb

update readme

Browse files
Files changed (1) hide show
  1. README.md +94 -1
README.md CHANGED
@@ -10,4 +10,97 @@ pinned: false
10
  short_description: 'Une application de classification de texte utilisant OpenAI '
11
  ---
12
 
13
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  short_description: 'Une application de classification de texte utilisant OpenAI '
11
  ---
12
 
13
+ # BrainBox4 - Système de Classification de Texte
14
+
15
+ Cette application gradio est un système de classification de texte basé sur l'IA, optimisé pour le traitement rapide de grands volumes de données.
16
+
17
+ ## 🚀 Installation
18
+
19
+ 1. Cloner le dépôt :
20
+ ```bash
21
+ git clone https://github.com/simon-dharcourt/brainbox4.git
22
+ cd brainbox4
23
+ ```
24
+
25
+ 2. Installer les dépendances :
26
+ ```bash
27
+ pip install -r requirements.txt
28
+ ```
29
+
30
+ 3. Configurer la clé API OpenAI (optionnel) :
31
+ - Créer un fichier `.env` à la racine du projet
32
+ - Ajouter votre clé API : `OPENAI_API_KEY=votre_clé_api`
33
+
34
+ ## 💻 Utilisation
35
+
36
+ 1. Lancer l'application :
37
+ ```bash
38
+ python app.py
39
+ ```
40
+
41
+ 2. Accéder à l'interface web :
42
+ - Ouvrir votre navigateur à l'URL indiquée dans la console.
43
+
44
+ 3. Étapes d'utilisation :
45
+ - Charger votre fichier Excel ou CSV
46
+ - Sélectionner les colonnes à classifier
47
+ - Définir les catégories
48
+ - Lancer la classification
49
+
50
+ ## 🏗 Architecture
51
+
52
+ ```
53
+ brainbox4/
54
+ ├── app.py # Interface utilisateur
55
+ ├── classifier.py # Classification asynchrone
56
+ ├── config.py # Configuration
57
+ ├── prompts.py # Templates LLM
58
+ ├── utils.py # Utilitaires
59
+ └── requirements.txt # Dépendances
60
+ ```
61
+
62
+ ## 🔧 Optimisations de Performance
63
+
64
+ ### Traitement Parallèle
65
+ - Exploitation d'`asyncio` pour effectuer des appels API simultanés.
66
+ - Gestion par lots de 20 textes par requête pour optimiser le débit.
67
+
68
+ ### Sélection Intelligente du Modèle
69
+ - **GPT-3.5** : Utilisé par défaut pour moins de 100 textes.
70
+ - **GPT-3.5-16k** : Adapté pour des volumes de 100 à 500 textes.
71
+ - **GPT-4** : Préféré pour plus de 500 textes.
72
+ - Intégration future de modèles hébergés localement pour une flexibilité accrue.
73
+
74
+ ## 🎨 Optimisations de l'Interface Utilisateur
75
+
76
+ ### Suggestions Automatiques
77
+ - Propositions automatiques de catégories et de colonnes basées sur un échantillon de textes.
78
+
79
+ ### Évaluation et Reclassification
80
+ - Rapport d'évaluation détaillé après classification : analyse des catégories, détection des incohérences, suggestions d'amélioration.
81
+ - Proposition de reclassification des textes selon les recommandations du rapport, ajustement des catégories et seuils de confiance pour améliorer la précision.
82
+
83
+
84
+ ## ✨ Fonctionnalités Principales
85
+
86
+ 1. **Classification Rapide**
87
+ - Traitement parallèle des textes
88
+ - Support des fichiers Excel/CSV
89
+ - Scores de confiance
90
+
91
+ 2. **Interface Simple**
92
+ - Upload de fichiers
93
+ - Sélection des colonnes
94
+ - Visualisation des résultats
95
+
96
+ ## 🚀 Pistes d'Amélioration
97
+
98
+ 1. **Déploiement Local**
99
+ - Utilisation de modèles locaux via LiteLLM
100
+ - Optimisation des appels aux LLMs pour accélérer la classification
101
+
102
+ 2. **Interface Avancée**
103
+ - Application web dédiée (React/Vue)
104
+ - Système de comptes utilisateurs
105
+ - Historique des classifications
106
+