Spaces:

Ronaldo1111
/

Sophia

Sleeping

App Files Files Community

Ronaldo1111 commited on 19 days ago

Commit

a62cfca

verified ·

1 Parent(s): 6613346

Upload 3 files

Browse files

Files changed (3) hide show

app.py +151 -0
requirements.txt +6 -0
wxid_818dcjgh2rie12_0_7235.json +0 -0

app.py ADDED Viewed

	@@ -0,0 +1,151 @@

+from sentence_transformers import SentenceTransformer
+from langchain.vectorstores import FAISS
+from langchain.docstore.document import Document
+import faiss
+import numpy as np
+import json
+# 加载对话内容
+file_path = r"C:\Users\Administrator\Downloads\wxdump_work\export\wxid_x7etd588hufg12\json\wxid_818dcjgh2rie12\wxid_818dcjgh2rie12_0_7235.json"
+try:
+    with open(file_path, 'r', encoding='utf-8') as f:
+        chunks = json.load(f)
+except FileNotFoundError:
+    print(f"File not found: {file_path}")
+    exit()
+except json.JSONDecodeError:
+    print(f"Error decoding JSON from file: {file_path}")
+    exit()
+# 假设每个 chunk 是一个字典，并且包含一个 'text' 键，存储实际的对话文本
+docs = [Document(page_content=chunk.get('text', '')) for chunk in chunks]
+# 加载嵌入模型
+model = SentenceTransformer("BAAI/bge-base-zh")
+embeddings = model.encode([doc.page_content for doc in docs], show_progress_bar=True)
+# 构建 FAISS 索引
+dimension = embeddings.shape[1]
+index = faiss.IndexFlatL2(dimension)
+index.add(np.array(embeddings))
+# 构建 LangChain 兼容的 VectorStore
+from langchain.docstore.in_memory import InMemoryDocstore
+from langchain_community.embeddings import HuggingFaceEmbeddings
+index_to_docstore_id = {i: str(i) for i in range(len(docs))}
+docstore = {str(i): doc for i, doc in enumerate(docs)}
+vectorstore = FAISS(
+    embedding_function=HuggingFaceEmbeddings(model_name='BAAI/bge-base-zh').embed_query,
+    index=index,
+    docstore=InMemoryDocstore(docstore),
+    index_to_docstore_id=index_to_docstore_id
+)
+# 构建 Retriever
+retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
+from sentence_transformers import SentenceTransformer
+from langchain.vectorstores import FAISS
+from langchain.docstore.document import Document
+import faiss
+import numpy as np
+import json
+# 加载对话内容
+with open('wechat_chunks.json', 'r', encoding='utf-8') as f:
+    chunks = json.load(f)
+docs = [Document(page_content=chunk) for chunk in chunks]
+# 加载嵌入模型
+model = SentenceTransformer("BAAI/bge-base-zh")
+embeddings = model.encode([doc.page_content for doc in docs], show_progress_bar=True)
+# 构建 FAISS 索引
+dimension = embeddings.shape[1]
+index = faiss.IndexFlatL2(dimension)
+index.add(np.array(embeddings))
+# 构建 LangChain 兼容的 VectorStore
+from langchain.docstore.in_memory import InMemoryDocstore
+from langchain_community.embeddings import HuggingFaceEmbeddings
+index_to_docstore_id = {i: str(i) for i in range(len(docs))}
+docstore = {str(i): doc for i, doc in enumerate(docs)}
+vectorstore = FAISS(
+    embedding_function=HuggingFaceEmbeddings(model_name='BAAI/bge-base-zh').embed_query,
+    index=index,
+    docstore=InMemoryDocstore(docstore),
+    index_to_docstore_id=index_to_docstore_id
+)
+# 构建 Retriever
+retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+from langchain.llms import HuggingFacePipeline
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferMemory
+from langchain.prompts import PromptTemplate
+# 加载模型
+model_name = "Qwen/Qwen1.5-0.5B-Chat"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name).eval()
+# 构建生成管道
+pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512)
+llm = HuggingFacePipeline(pipeline=pipe)
+# 设置 prompt 模板
+custom_prompt = PromptTemplate.from_template(
+    """
+你是一个可爱的微信好友，请模仿以下对话中的语气，特别是“对方”（即 is_sender = 0 的说话者）的说话风格。
+你的语气要俏皮、有点可爱、适度调侃，不要太正式。使用微信风格的口语表达，不用太长！
+以下是之前的微信聊天片段：
+{context}
+现在我说：
+{question}
+你应该怎么用这种风格来回复我？
+"""
+)
+# 构建多轮问答链
+qa_chain = ConversationalRetrievalChain.from_llm(
+    llm=llm,
+    retriever=retriever,
+    memory=ConversationBufferMemory(return_messages=True),
+    combine_docs_chain_kwargs={"prompt": custom_prompt},
+    return_source_documents=False
+)
+import gradio as gr
+# 聊天函数
+def chat(user_input, history):
+    history = history or []
+    chat_history = [(q, a) for q, a in history]
+    result = qa_chain.invoke({"question": user_input, "chat_history": chat_history})
+    reply = result["answer"]
+    history.append((user_input, reply))
+    return history, history
+# Gradio 页面设计
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🎀 Sophia Chat Agent")
+    gr.Markdown("这是 **Sophia Jr**，来和笨笨认识一下吧！😄")
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox(label="请输入你的话...", placeholder="跟 Sophia 聊聊吧", lines=2)
+    state = gr.State([])
+    send_btn = gr.Button("发送")
+    send_btn.click(chat, inputs=[msg, state], outputs=[chatbot, state])
+    msg.submit(chat, inputs=[msg, state], outputs=[chatbot, state])
+demo.launch(share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio==4.15.0
+transformers>=4.36.2
+langchain>=0.1.0
+sentence-transformers
+faiss-cpu
+huggingface-hub

wxid_818dcjgh2rie12_0_7235.json ADDED Viewed

The diff for this file is too large to render. See raw diff