Spaces:

aswin-10
/

Analytics_Vidhya_Free_Course

Sleeping

App Files Files Community

aswin-10 commited on Oct 23, 2024

Commit

ae4467e

verified ·

1 Parent(s): 153abd4

Create app.py

Browse files

Files changed (1) hide show

app.py +85 -0

app.py ADDED Viewed

	@@ -0,0 +1,85 @@

+import gradio as gr
+import pandas as pd
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+import openai
+import os
+# Set up your OpenAI API key (consider using environment variables for security)
+openai.api_key = os.getenv("OPENAI_API_KEY")
+# Load course data from CSV file
+df = pd.read_csv('course_data.csv')
+# Combine relevant columns into one text representation for each course
+def combine_course_text(row):
+    return f"{row['Course Title']} {row['Description']} {row['All Chapter Titles']} {row['All Lessons']}"
+df['combined_text'] = df.apply(combine_course_text, axis=1)
+# Function to get embeddings for text using OpenAI's API
+def get_embedding(text):
+    try:
+        response = openai.Embedding.create(
+            input=text,
+            model="text-embedding-ada-002"
+        )
+        embedding = response['data'][0]['embedding']
+        return embedding
+    except Exception as e:
+        print(f"Error while getting embedding: {e}")
+        return None
+# Pre-compute embeddings for all courses in the dataset
+course_embeddings = []
+course_titles = df['Course Title'].tolist()
+for text in df['combined_text']:
+    embedding = get_embedding(text)
+    if embedding is not None:
+        course_embeddings.append(embedding)
+    else:
+        print(f"Failed to generate embedding for: {text}")
+# Convert embeddings to numpy array (for cosine_similarity to work properly)
+course_embeddings = np.array(course_embeddings)
+# Function to search courses based on a query
+def search_courses(query):
+    # Get embedding for query
+    query_embedding = get_embedding(query)
+    if query_embedding is None:
+        return "Error in generating query embedding."
+    # Compute cosine similarity between query embedding and course embeddings
+    similarities = cosine_similarity([query_embedding], course_embeddings)
+    # Sort by similarity
+    sorted_indices = np.argsort(similarities[0])[::-1]
+    # Get top 3 courses based on similarity
+    top_courses = [course_titles[i] for i in sorted_indices[:3]]
+    return top_courses
+# Gradio Interface
+def gradio_search(query):
+    if query.strip():
+        results = search_courses(query)
+        if len(results) < 3:
+            results.extend(["No results"] * (3 - len(results)))
+        return "Top relevant courses:\n1. " + results[0] + "\n2. " + results[1] + "\n3. " + results[2]
+# Create Gradio interface
+interface = gr.Interface(
+    fn=gradio_search,
+    inputs="text",
+    outputs="text",
+    title="Smart Course Search",
+    description="Enter a query and get the most relevant courses from the dataset.")
+# Launch the Gradio interface
+interface.launch(share=True)