Ludovicollin commited on
Commit
2a7178c
·
1 Parent(s): 2b690fc

Upload main.py

Browse files
Files changed (1) hide show
  1. main.py +340 -0
main.py ADDED
@@ -0,0 +1,340 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import os
2
+ import time
3
+ from operator import itemgetter
4
+ from collections import Counter
5
+ from langchain.schema.runnable import Runnable, RunnablePassthrough, RunnableLambda
6
+ from langchain.schema.runnable.config import RunnableConfig
7
+ from langchain.embeddings import HuggingFaceEmbeddings
8
+ from langchain.chains import ConversationalRetrievalChain
9
+ from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
10
+ from langchain.chains import LLMChain
11
+ from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
12
+ from langchain.schema import StrOutputParser
13
+ from langchain.chains.conversational_retrieval.prompts import CONDENSE_QUESTION_PROMPT
14
+ from langchain.chains.question_answering import load_qa_chain
15
+ from langchain.chains.qa_with_sources import load_qa_with_sources_chain
16
+ from langchain.vectorstores import Pinecone
17
+ import pinecone
18
+ from langchain.memory import ChatMessageHistory, ConversationBufferMemory
19
+ import pandas as pd
20
+ import numpy as np
21
+ from anthropic import Anthropic, HUMAN_PROMPT, AI_PROMPT
22
+ from langchain.chat_models import ChatAnthropic
23
+ import chainlit as cl
24
+ from chainlit.input_widget import TextInput
25
+ from chainlit import user_session
26
+ from offres_emploi import Api
27
+ from offres_emploi.utils import dt_to_str_iso
28
+ import datetime
29
+
30
+ @cl.author_rename
31
+ def rename(orig_author: str):
32
+ rename_dict = {"ConversationalRetrievalChain": "💬 Assistant conversationnel", "Retriever": "Agent conversationnel", "StuffDocumentsChain": "Chaîne de documents", "LLMChain": "Agent", "ChatAnthropic": "🤖 IA"}
33
+ return rename_dict.get(orig_author, orig_author)
34
+
35
+ @cl.action_callback("download")
36
+ async def on_action(action):
37
+ content = []
38
+ content.append(action.value)
39
+ arrayContent = np.array(content)
40
+ df = pd.DataFrame(arrayContent)
41
+ with open('.chainlit/' + action.description + '.txt', 'wb') as csv_file:
42
+ df.to_csv(path_or_buf=csv_file, index=False,header=False, encoding='utf-8')
43
+ elements = [
44
+ cl.File(
45
+ name= action.description + ".txt",
46
+ path="./.chainlit/" + action.description + ".txt",
47
+ display="inline",
48
+ ),
49
+ ]
50
+ await cl.Message(
51
+ author="🌐🌐🌐", content="[Lien] 🔗", elements=elements
52
+ ).send()
53
+ await action.remove()
54
+
55
+ @cl.action_callback("close_button")
56
+ async def on_action(action):
57
+ time.sleep(0.5)
58
+ track = user_session.get("tracker")
59
+ await track.remove()
60
+
61
+ @cl.action_callback("action_button")
62
+ async def on_action(action):
63
+ task_list = cl.TaskList()
64
+ # Create the TaskList
65
+ # Create a task and put it in the running state
66
+ task1 = cl.Task(title="Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data Processing data \n\n Processing data", status=cl.TaskStatus.READY)
67
+ await task_list.add_task(task1)
68
+ task2 = cl.Task(title=action.value, status=cl.TaskStatus.READY)
69
+ await task_list.add_task(task2)
70
+ # Perform some action on your end
71
+ await task_list.send()
72
+ tracking = user_session.set("tracker", task_list)
73
+
74
+ others = [
75
+ cl.Action(name="close_button", value="closed", label="Fermer", description="Fermer le volet d'information!")
76
+ ]
77
+ await cl.Message(author="🌐🌐🌐",content="Fermer le panneau d'information", actions=others).send()
78
+
79
+ @cl.cache
80
+ def to_cache(file):
81
+ #time.sleep(5) # Simulate a time-consuming process
82
+ return "https://cipen.univ-gustave-eiffel.fr/fileadmin/CIPEN/datas/assets/docs/" + file + ".csv"
83
+
84
+
85
+ @cl.set_chat_profiles
86
+ async def chat_profile():
87
+ return [
88
+ cl.ChatProfile(name="OF - Offre de formation",markdown_description="Requêter sur l'offre de formation - OF",icon="./public/favicon.png",),
89
+ cl.ChatProfile(name="Emplois - En direct de Pole Emploi",markdown_description="Emplois - En direct de Pole Emploi",icon="./public/favicon.png",),
90
+ cl.ChatProfile(name="K1902 - LP MDAI",markdown_description="K1902 - LP MDAI : requête sur les offres d'emploi",icon="./public/favicon.png",),
91
+ cl.ChatProfile(name="M1802-I1401-M1810-M1801-M1805 - Licence Maths-Info",markdown_description="M1802-I1401-M1810-M1801-M1805 - Licence Maths-Info : requête sur les offres d'emploi",icon="./public/favicon.png",),
92
+ cl.ChatProfile(name="K1207-G1202-G1204 - Licence STAPS",markdown_description="K1207-G1202-G1204 - Licence STAPS : requête sur les offres d'emploi",icon="./public/favicon.png",),
93
+ ]
94
+ @cl.on_chat_start
95
+ async def start():
96
+ chat_profile = cl.user_session.get("chat_profile")
97
+ chatProfile = chat_profile.split(' - ')
98
+
99
+ if chatProfile[0] == 'OF':
100
+ connexion = cl.TaskList()
101
+ connexion.status = "Running..."
102
+
103
+ # Create a task and put it in the running state
104
+ task1 = cl.Task(title="Chargement des données, en attente...", status=cl.TaskStatus.RUNNING)
105
+ await connexion.add_task(task1)
106
+ await connexion.send()
107
+
108
+
109
+ logo = [
110
+ cl.Image(name="Logo", size="small", display="inline", path="./public/logo_light.png")
111
+ ]
112
+
113
+ await cl.Message(author="🌐🌐🌐",content="", elements=logo).send()
114
+ await cl.Message(
115
+ author="🌐🌐🌐",content=f"Commencez à poser vos questions sur les données \"{chat_profile}\"\n\n💡Voici des exemples de question \n\t1️⃣ Basée sur les formations : Quelles sont toutes les formations licences générales?\n\t2️⃣ Basée sur les compétences : Quelles sont les compétences de la licence Economie et gestion?\n\t3️⃣ Basée sur les métiers : Quelles sont les métiers possibles de la licence Economie et gestion?\n\t4️⃣ Basée sur un souhait : Quelles formations si je veux travailler dans la vente?\n\t5️⃣ Basée sur un savoir-être : Quelles formations si j'aime travailler en équipe?\n\t6️⃣ Basée sur un état : Quelles formations si je suis créatif?\n\t7️⃣ Question multi-critère : Quelles sont les activités, les compétences et les métiers possibles de la licence Economie et gestion?"
116
+ ).send()
117
+ settings = await cl.ChatSettings(
118
+ [
119
+ TextInput(id="AgentName", label="Renseigner votre code ROME", initial=""),
120
+ ]
121
+ ).send()
122
+ value = settings["AgentName"]
123
+ task1.status = cl.TaskStatus.DONE
124
+ await cl.sleep(0.5)
125
+ await connexion.remove()
126
+
127
+ if value:
128
+ await cl.Message(author="🌐🌐🌐",content=settings["AgentName"]).send()
129
+
130
+ index_name = os.environ['PINECONE_INDEX_NAME']
131
+ embeddings = HuggingFaceEmbeddings()
132
+ pinecone.init(
133
+ api_key=os.environ['PINECONE_API_KEY'],
134
+ environment=os.environ['PINECONE_ENVIRONMENT']
135
+ )
136
+ vectorstore = Pinecone.from_existing_index(
137
+ index_name=index_name, embedding=embeddings
138
+ )
139
+
140
+ os.environ['ANTHROPIC_API_KEY'] = os.environ['ANTHROPIC_API_KEY']
141
+
142
+ retriever = vectorstore.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": .7, "k": 60,"filter": {'categorie': {'$eq': 'OF'}}})
143
+ ########## Chain with streaming ##########
144
+ message_history = ChatMessageHistory()
145
+ memory = ConversationBufferMemory(
146
+ memory_key="chat_history",
147
+ output_key="answer",
148
+ chat_memory=message_history,
149
+ return_messages=True,
150
+ )
151
+ llm = ChatAnthropic()
152
+ streaming_llm = ChatAnthropic(
153
+ streaming=True,
154
+ temperature=1,
155
+ max_tokens=4000
156
+ )
157
+ question_generator = LLMChain(llm=llm, prompt=CONDENSE_QUESTION_PROMPT)
158
+ doc_chain = load_qa_chain(streaming_llm, chain_type="stuff")
159
+
160
+ qa = ConversationalRetrievalChain(
161
+ retriever=retriever,
162
+ combine_docs_chain=doc_chain,
163
+ question_generator=question_generator,
164
+ memory=memory,
165
+ return_source_documents=True,
166
+ )
167
+
168
+ cl.user_session.set("conversation_chain", qa)
169
+ elif chatProfile[0] == 'Emplois':
170
+ poleemploi = cl.TaskList()
171
+ poleemploi.status = "Running..."
172
+
173
+ # Create a task and put it in the running state
174
+ task1 = cl.Task(title="Chargement des données du marché de l'emploi, en attente...", status=cl.TaskStatus.RUNNING)
175
+ await poleemploi.add_task(task1)
176
+ await poleemploi.send()
177
+ logo = [
178
+ cl.Image(name="Logo", size="small", display="inline", path="./public/logo_light.png")
179
+ ]
180
+
181
+ await cl.Message(author="🌐🌐🌐",content="", elements=logo).send()
182
+ #file = to_cache(chatProfile[0])
183
+ await cl.Message(author="🌐🌐🌐",content=f"💻😊 Vous pouvez rechercher des \"{chat_profile}\"!").send()
184
+ await cl.Message(
185
+ author="🌐🌐🌐",content=f"💡Voici des exemples de requête \n\t1️⃣ Basée sur un code ROME : M1403\n\t2️⃣ Basée sur une appellation métier : Coach sportif"
186
+ ).send()
187
+ task1.status = cl.TaskStatus.DONE
188
+ await cl.sleep(0.5)
189
+ await poleemploi.remove()
190
+ cl.user_session.set("memory", ConversationBufferMemory(return_messages=True))
191
+ memory = cl.user_session.get("memory")
192
+ cl.user_session.set("runnable", memory)
193
+ else:
194
+ emploi = cl.TaskList()
195
+ emploi.status = "Running..."
196
+
197
+ # Create a task and put it in the running state
198
+ task1 = cl.Task(title="Chargement des données du marché de l'emploi, en attente...", status=cl.TaskStatus.RUNNING)
199
+ await emploi.add_task(task1)
200
+ await emploi.send()
201
+ logo = [
202
+ cl.Image(name="Logo", size="small", display="inline", path="./public/logo_light.png")
203
+ ]
204
+
205
+ await cl.Message(author="🌐🌐🌐",content="", elements=logo).send()
206
+ file = to_cache(chatProfile[0])
207
+ await cl.Message(author="🌐🌐🌐",content=f"💻😊 Vous pouvez poser vos questions concernant le marché de l'emploi de \"{chat_profile}\"!").send()
208
+ await cl.Message(author="🌐🌐🌐",content=f"📈 Le marché de l'emploi se présente comme un gros tableau structuré comme suit :\n1. Emplois\n2. Type de contrat\n3. Expérience\n4. Compétences professionnelles\n5. Salaire\n6. Qualification\n7. Localisation").send()
209
+ await cl.Message(
210
+ author="🌐🌐🌐",content=f"💡Voici des exemples de question \n\t1️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés ?\n\t2️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés avec leur salaire moyen correspondant à chacun de ces emplois?\n\t3️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés et leur répartition dans les localisations suivantes, le 75, ou le 77, ou le 78, ou le 91, ou le 92, ou le 93, ou le 94, ou le 95?\n\t4️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés pour un niveau de qualification Bac+2 Bac+3?\n\t5️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés et associer 2 compétences professionnelles à chaque emploi, de type activités professionnelles, sans lister les compétences transversales?\n\t6️⃣ Peux-tu créer une liste de 5 emplois différents les plus listés avec un contrat en CDI?\n\t7️⃣ Quelles sont les compétences professionnelles les mieux payées?"
211
+ ).send()
212
+ model = ChatAnthropic(model="claude-2.1",top_p=0.9,temperature=1,max_tokens_to_sample=4097,streaming=True)
213
+ df = pd.read_csv(file, sep=",")
214
+ df = df.replace(np.nan, '', regex=True)
215
+ df['combined'] = 'Emploi ' + df['Poste'] + '; type de contrat : ' + df['Contrat'] + '; Compétences professionnelles : ' + df['Savoir'] + '; Salaire : ' + df['Salaire'] + '; Niveau de qualification : ' + df['Niveau'] + '; Localisation : ' + df['Localisation']
216
+
217
+ context = []
218
+ for i, row in df.iterrows():
219
+ context.append(row['combined'])
220
+
221
+ context = "\n".join(context)
222
+ context = context[0:590000]
223
+ task1.status = cl.TaskStatus.DONE
224
+ await cl.sleep(5)
225
+ await emploi.remove()
226
+ cl.user_session.set("memory", ConversationBufferMemory(return_messages=True))
227
+ memory = cl.user_session.get("memory")
228
+ prompt = ChatPromptTemplate.from_messages(
229
+ [
230
+ (
231
+ "system",
232
+ f"Contexte : Vous êtes un spécialiste du marché de l'emploi en fonction du niveau de qualification, des compétences professionnelles, des compétences transversales, du salaire et de l'expérience. Vous êtes doué pour faire des analyses sur les métiers les plus demandés grâce à votre aptitude à synthétiser les informations en fonction des critères définis ci-avant. En fonction des informations suivantes et du contexte suivant seulement et strictement. En fonction des informations suivantes et du contexte suivant seulement et strictement. Contexte et document : {context}. Réponds en langue française strictement à la question suivante en respectant strictement les données du document. Si vous ne pouvez pas répondre à la question sur la base des informations, dites que vous ne trouvez pas de réponse ou que vous ne parvenez pas à trouver de réponse. Essayez donc de comprendre en profondeur le contexte et répondez uniquement en vous basant sur les informations fournies. Ne générez pas de réponses non pertinentes.",
233
+ ),
234
+ MessagesPlaceholder(variable_name="history"),
235
+ ("human", "{question}, d'après le document en vous réferrant strictement aux données du contexte fixé sans faire de recherche dans vos connaissances ou sur le web? Si les emplois sont différents aux données, recommencez votre liste. Réponse sous forme d'une liste. Si tu ne peux pas donner la liste, fais une projection par emplois."),
236
+ ]
237
+ )
238
+ #runnable = prompt | model | StrOutputParser()
239
+ runnable = (
240
+ RunnablePassthrough.assign(
241
+ history=RunnableLambda(memory.load_memory_variables) | itemgetter("history")
242
+ )
243
+ | prompt
244
+ | model
245
+ | StrOutputParser()
246
+ )
247
+ cl.user_session.set("runnable", runnable)
248
+
249
+ @cl.on_message
250
+ async def main(message: cl.Message):
251
+ chat_profile = cl.user_session.get("chat_profile")
252
+ chatProfile = chat_profile.split(' - ')
253
+ if chatProfile[0] == "OF":
254
+ chain = cl.user_session.get("conversation_chain")
255
+ cb = cl.AsyncLangchainCallbackHandler()
256
+ res = await chain.acall("Contexte : Réponds à la question suivante de la manière la plus pertinente, la plus exhaustive et la plus détaillée possible, avec au minimum 3000 tokens jusqu'à 4000 tokens, seulement et strictement dans le contexte et les informations fournies. Question : " + message.content, callbacks=[cb])
257
+ answer = res["answer"]
258
+ source_documents = res["source_documents"]
259
+
260
+ text_elements = []
261
+ metadatas = ''
262
+ if source_documents:
263
+ for source_idx, source_doc in enumerate(source_documents[::-1]):
264
+ numSource = source_idx + 1
265
+ source_name = f"Source n°{numSource}"
266
+ text_elements.append(
267
+ cl.Text(content="Formations : " + source_doc.metadata['ABREGE_LIBELLES'] + " " + source_doc.metadata['INTITULE'] + "\n\nROME : " + source_doc.metadata['CODES_ROME'] + "\nLibellés ROME : " + source_doc.metadata['LIBELLES_ROME'] + "\n\nActivités : " + source_doc.metadata['ACTIVITES_VISEES'].replace('œ','oe') + "\n\nEmplois accessibles : " + source_doc.metadata['TYPE_EMPLOI_ACCESSIBLES'] + "\n\nCompétences : " + source_doc.metadata['CAPACITES_ATTESTEES'].replace('œ','oe').replace('…','oe'), name=source_name)
268
+ )
269
+ source_names = [text_el.name for countMetadata, text_el in enumerate(text_elements) if countMetadata < 10]
270
+ if source_names:
271
+ metadatas += ', '.join(source_names)
272
+ else:
273
+ metadatas += "\n\nPas de source trouvée!"
274
+
275
+ actions = [
276
+ cl.Action(name="download", value="Question : " + message.content + "\n\nRéponse : " + answer, description="download_offre_formation")
277
+ ]
278
+
279
+ await cl.Message(author="🌐🌐🌐",content=answer).send()
280
+ await cl.Message(author="🌐🌐🌐",content="Download", actions=actions).send()
281
+
282
+ if metadatas:
283
+ await cl.Message(author="🌐🌐🌐",content="Sources : " + metadatas, elements=text_elements).send()
284
+ elif chatProfile[0] == "Emplois":
285
+ client = Api(client_id=os.environ['POLE_EMPLOI_CLIENT_ID'],
286
+ client_secret=os.environ['POLE_EMPLOI_CLIENT_SECRET'])
287
+ runnable = cl.user_session.get("runnable")
288
+ memory = cl.user_session.get("memory")
289
+ msg = cl.Message(author="🌐🌐🌐",content="")
290
+ todayDate = datetime.datetime.today()
291
+ month, year = (todayDate.month-1, todayDate.year) if todayDate.month != 1 else (12, todayDate.year-1)
292
+ start_dt = todayDate.replace(day=1, month=month, year=year)
293
+
294
+ end_dt = datetime.datetime.today()
295
+
296
+ params = {"motsCles": message.content,'lieux':'75D','minCreationDate': dt_to_str_iso(start_dt),'maxCreationDate': dt_to_str_iso(end_dt),'range':'0-149'}
297
+ search_on_big_data = client.search(params=params)
298
+ results = search_on_big_data["resultats"]
299
+ emplois = []
300
+ text_elements = []
301
+ for i in range(0,len(results)):
302
+ emplois.append("✔️ Emploi : " + results[i]['intitule'] + "\nCode ROME : " + results[i]['romeCode'] + "\nLien vers Pôle Emploi : https://candidat.pole-emploi.fr/offres/recherche/detail/" + results[i]['id'] + "\n\nDescription : " + results[i]['description'] + "\n\n")
303
+ emplois_list = ''.join(emplois)
304
+ await msg.stream_token(emplois_list)
305
+ await msg.send()
306
+ listEmplois_name = f"Liste des emplois"
307
+ text_elements.append(
308
+ cl.Text(content="Question : " + message.content + "\n\nRéponse :\n" + msg.content, name=listEmplois_name)
309
+ )
310
+ actions = [
311
+ cl.Action(name="download", value="Question : " + message.content + "\n\nRéponse : " + msg.content, description="download_emplois")
312
+ ]
313
+ await cl.Message(author="🌐🌐🌐",content="Download", actions=actions).send()
314
+ await cl.Message(author="🌐🌐🌐",content="Source Pôle Emploi : " + listEmplois_name, elements=text_elements).send()
315
+
316
+ memory.chat_memory.add_user_message(message.content)
317
+ memory.chat_memory.add_ai_message(msg.content)
318
+
319
+ else:
320
+ memory = cl.user_session.get("memory")
321
+ runnable = cl.user_session.get("runnable") # type: Runnable
322
+ msg = cl.Message(author="🌐🌐🌐",content="")
323
+ text_elements = []
324
+ async for chunk in runnable.astream(
325
+ {"question": message.content},
326
+ config=RunnableConfig(callbacks=[cl.LangchainCallbackHandler()]),
327
+ ):
328
+ await msg.stream_token(chunk)
329
+ await msg.send()
330
+ QA_Emplois_name = f"Question-réponse sur les emplois"
331
+ text_elements.append(
332
+ cl.Text(content="Question : " + message.content + "\n\nRéponse :\n" + msg.content, name=QA_Emplois_name)
333
+ )
334
+ actions = [
335
+ cl.Action(name="download", value="Question : " + message.content + "\n\nRéponse : " + msg.content, description="download_QA_emplois")
336
+ ]
337
+ await cl.Message(author="🌐🌐🌐",content="Download", actions=actions).send()
338
+ await cl.Message(author="🌐🌐🌐",content="Marché Emploi : " + QA_Emplois_name, elements=text_elements).send()
339
+ memory.chat_memory.add_user_message(message.content)
340
+ memory.chat_memory.add_ai_message(msg.content)