Spaces:

svsaurav95
/

Financial_chat_bot

Running

App Files Files Community

svsaurav95 commited on Feb 8

Commit

157ff13

verified ·

1 Parent(s): 04dff86

Added Rag

Browse files

Files changed (1) hide show

app.py +104 -38

app.py CHANGED Viewed

@@ -1,14 +1,25 @@
 import streamlit as st
-import requests
-import pymupdf
 import traceback
 from sentence_transformers import SentenceTransformer
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_groq import ChatGroq
-ALPHA_VANTAGE_API_KEY = st.secrets["ALPHA_VANTAGE_API_KEY"]
-GROQ_API_KEY = st.secrets["GROQ_API_KEY"]
-embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
 try:
     llm = ChatGroq(temperature=0, model="llama3-70b-8192", api_key=GROQ_API_KEY)
@@ -17,19 +28,9 @@ except Exception as e:
     st.error("❌ Failed to initialize Groq LLM.")
     traceback.print_exc()
-def extract_text_from_pdf(uploaded_file, max_length=5000):
-    try:
-        doc = pymupdf.open(stream=uploaded_file.read(), filetype="pdf")
-        full_text = "".join(page.get_text() for page in doc)
-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=max_length, chunk_overlap=200)
-        chunks = text_splitter.split_text(full_text)
-        return chunks
-    except Exception as e:
-        st.error("❌ Failed to extract text from PDF.")
-        traceback.print_exc()
-        return ["Error extracting text."]
 def fetch_financial_data(company_ticker):
     if not company_ticker:
         return "No ticker symbol provided. Please enter a valid company ticker."
@@ -37,13 +38,13 @@ def fetch_financial_data(company_ticker):
     try:
         overview_url = f"https://www.alphavantage.co/query?function=OVERVIEW&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
         overview_response = requests.get(overview_url)
         if overview_response.status_code == 200:
             overview_data = overview_response.json()
             market_cap = overview_data.get("MarketCapitalization", "N/A")
         else:
-            st.error(f"❌ Failed to fetch company overview. Status Code: {overview_response.status_code}")
             return "Error fetching company overview."
         income_url = f"https://www.alphavantage.co/query?function=INCOME_STATEMENT&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
         income_response = requests.get(income_url)
@@ -52,49 +53,114 @@ def fetch_financial_data(company_ticker):
             annual_reports = income_data.get("annualReports", [])
             revenue = annual_reports[0].get("totalRevenue", "N/A") if annual_reports else "N/A"
         else:
-            st.error(f"❌ Failed to fetch income statement. Status Code: {income_response.status_code}")
             return "Error fetching income statement."
         return f"Market Cap: ${market_cap}\nTotal Revenue: ${revenue}"
     except Exception as e:
-        st.error("❌ Exception in fetching financial data.")
         traceback.print_exc()
         return "Error fetching financial data."
 def generate_response(user_query, company_ticker, mode, uploaded_file):
     try:
-        if mode == "PDF Upload Mode":
-            chunks = extract_text_from_pdf(uploaded_file)
-            chunked_summary = "\n\n".join(chunks[:3])
-            prompt = f"Summarize the key financial insights from this document:\n\n{chunked_summary}"
-        elif mode == "Live Data Mode":
             financial_info = fetch_financial_data(company_ticker)
             prompt = f"Analyze the financial status of {company_ticker} based on:\n{financial_info}\n\nUser Query: {user_query}"
         else:
             return "Invalid mode selected."
         response = llm.invoke(prompt)
         return response.content
     except Exception as e:
-        st.error("❌ Failed to generate AI response.")
         traceback.print_exc()
         return "Error generating response."
-st.title("📊 AI-Powered Financial Insights Chatbot")
-st.write("Upload financial reports or fetch live financial data ")
-user_query = st.text_input("Enter your query:")
-company_ticker = st.text_input("Enter company ticker symbol")
-mode = st.radio("Select Mode:", ["PDF Upload Mode", "Live Data Mode"])
-uploaded_file = st.file_uploader("Upload PDF (Only for PDF Mode)", type=["pdf"])
-if st.button("Analyze"):
-    if mode == "PDF Upload Mode" and not uploaded_file:
         st.error("❌ Please upload a PDF file.")
     else:
-        with st.spinner("Processing... ⏳"):
             response = generate_response(user_query, company_ticker, mode, uploaded_file)
-            st.subheader("💡 AI Response")
             st.write(response)

 import streamlit as st
+import pdfplumber
+import re
 import traceback
+import faiss
+import numpy as np
+import requests
+from rank_bm25 import BM25Okapi
 from sentence_transformers import SentenceTransformer
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_groq import ChatGroq
+import torch
+import os
+st.set_page_config(page_title="Financial Insights Chatbot", page_icon="📊", layout="wide")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+ALPHA_VANTAGE_API_KEY = os.getenv("ALPHA_VANTAGE_API_KEY")
 try:
     llm = ChatGroq(temperature=0, model="llama3-70b-8192", api_key=GROQ_API_KEY)
     st.error("❌ Failed to initialize Groq LLM.")
     traceback.print_exc()
+embedding_model = SentenceTransformer("baconnier/Finance2_embedding_small_en-V1.5", device=device)
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
 def fetch_financial_data(company_ticker):
     if not company_ticker:
         return "No ticker symbol provided. Please enter a valid company ticker."
     try:
         overview_url = f"https://www.alphavantage.co/query?function=OVERVIEW&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
         overview_response = requests.get(overview_url)
         if overview_response.status_code == 200:
             overview_data = overview_response.json()
             market_cap = overview_data.get("MarketCapitalization", "N/A")
         else:
             return "Error fetching company overview."
         income_url = f"https://www.alphavantage.co/query?function=INCOME_STATEMENT&symbol={company_ticker}&apikey={ALPHA_VANTAGE_API_KEY}"
         income_response = requests.get(income_url)
             annual_reports = income_data.get("annualReports", [])
             revenue = annual_reports[0].get("totalRevenue", "N/A") if annual_reports else "N/A"
         else:
             return "Error fetching income statement."
         return f"Market Cap: ${market_cap}\nTotal Revenue: ${revenue}"
     except Exception as e:
         traceback.print_exc()
         return "Error fetching financial data."
+def extract_and_embed_text(pdf_file):
+    """Processes PDFs and generates embeddings with GPU acceleration."""
+    try:
+        docs, tokenized_texts = [], []
+        with pdfplumber.open(pdf_file) as pdf:
+            for page in pdf.pages:
+                text = page.extract_text()
+                if text:
+                    chunks = text_splitter.split_text(text)
+                    for chunk in chunks:
+                        docs.append(chunk)
+                        tokenized_texts.append(chunk.split())
+        embeddings = embedding_model.encode(docs, batch_size=64, convert_to_numpy=True, normalize_embeddings=True)
+        embedding_dim = embeddings.shape[1]
+        index = faiss.IndexHNSWFlat(embedding_dim, 32)
+        index.add(embeddings)
+        bm25 = BM25Okapi(tokenized_texts)
+        return docs, embeddings, index, bm25
+    except Exception as e:
+        traceback.print_exc()
+        return [], [], None, None
+def retrieve_relevant_docs(user_query, docs, index, bm25):
+    """Hybrid search using FAISS cosine similarity & BM25 keyword retrieval."""
+    query_embedding = embedding_model.encode(user_query, convert_to_numpy=True, normalize_embeddings=True)
+    _, faiss_indices = index.search(np.array([query_embedding]), 8)
+    bm25_scores = bm25.get_scores(user_query.split())
+    bm25_indices = np.argsort(bm25_scores)[::-1][:8]
+    combined_indices = list(set(faiss_indices[0]) | set(bm25_indices))
+    return [docs[i] for i in combined_indices[:3]]
 def generate_response(user_query, company_ticker, mode, uploaded_file):
     try:
+        if mode == "📄 PDF Upload Mode":
+            docs, embeddings, index, bm25 = extract_and_embed_text(uploaded_file)
+            if not docs:
+                return "❌ Error extracting text from PDF."
+            retrieved_docs = retrieve_relevant_docs(user_query, docs, index, bm25)
+            context = "\n\n".join(retrieved_docs)
+            prompt = f"Summarize the key financial insights from this document:\n\n{context}"
+        elif mode == "🌍 Live Data Mode":
             financial_info = fetch_financial_data(company_ticker)
             prompt = f"Analyze the financial status of {company_ticker} based on:\n{financial_info}\n\nUser Query: {user_query}"
         else:
             return "Invalid mode selected."
         response = llm.invoke(prompt)
         return response.content
     except Exception as e:
         traceback.print_exc()
         return "Error generating response."
+st.markdown(
+    "<h1 style='text-align: center; color: #4CAF50;'>📊 AI-Powered Financial Insights Chatbot</h1>",
+    unsafe_allow_html=True
+)
+st.markdown(
+    "<h5 style='text-align: center; color: #666;'>Analyze financial reports or fetch live financial data effortlessly!</h5>",
+    unsafe_allow_html=True
+)
+col1, col2 = st.columns(2)
+with col1:
+    st.markdown("### 🏢 **Choose Your Analysis Mode**")
+    mode = st.radio("", ["📄 PDF Upload Mode", "🌍 Live Data Mode"], horizontal=True)
+with col2:
+    st.markdown("### 🔎 **Enter Your Query**")
+    user_query = st.text_input("💬 What financial insights are you looking for?")
+st.markdown("---")
+if mode == "📄 PDF Upload Mode":
+    st.markdown("### 📂 Upload Your Financial Report")
+    uploaded_file = st.file_uploader("🔼 Upload PDF (Only for PDF Mode)", type=["pdf"])
+    company_ticker = None
+else:
+    st.markdown("### 🌍 Live Market Data")
+    company_ticker = st.text_input("🏢 Enter Company Ticker Symbol", placeholder="e.g., AAPL, MSFT")
+    uploaded_file = None
+if st.button("🚀 Analyze Now"):
+    if mode == "📄 PDF Upload Mode" and not uploaded_file:
         st.error("❌ Please upload a PDF file.")
+    elif mode == "🌍 Live Data Mode" and not company_ticker:
+        st.error("❌ Please enter a valid company ticker symbol.")
     else:
+        with st.spinner("🔍 Your Query is Processing, this can take upto 5 - 7 minutes⏳"):
             response = generate_response(user_query, company_ticker, mode, uploaded_file)
+            st.markdown("---")
+            st.markdown("<h3 style='color: #4CAF50;'>💡 AI Response</h3>", unsafe_allow_html=True)
             st.write(response)
+st.markdown("---")