Spaces:

kisate-team
/

self-explanation

Sleeping

self-explanation / app.py

Dmitrii

add our gemma residuals

157fcd6 10 months ago

5.88 kB

	import gradio as gr
	import pyarrow.parquet as pq
	import pyarrow.compute as pc
	from transformers import AutoTokenizer
	from datasets import load_dataset
	import os
	import numpy as np


	cache_path = "weights/caches"
	parquets = os.listdir(cache_path)

	dataset = load_dataset("kisate-team/feature-explanations", split="train")

	def find_revions():
	revisions = set()
	for parquet in parquets:
	if parquet.endswith(".parquet"):
	parts = parquet.split("-")
	if len(parts) > 2:
	revisions.add(int(parts[-3][1:]))
	return sorted(revisions)

	def find_layers(revision):
	layers = set()
	for parquet in parquets:
	if parquet.endswith(".parquet"):
	parts = parquet.split("-")
	if len(parts) > 2 and int(parts[-3][1:]) == revision:
	layers.add(int(parts[-4][1:]))
	return sorted(layers)

	revisions = find_revions()
	layers = {
	revision: find_layers(revision) for revision in revisions
	}

	features = {
	revision: {
	layer: {
	item["feature"]:item for item in dataset if item["layer"] == layer and item["version"] == revision
	} for layer in layers[revision]
	} for revision in revisions
	}

	# layers = dataset.unique("layer")

	nearby = 8
	stride = 0.25
	n_bins = 10

	def make_cache_name(layer, revision, model):
	return f"{cache_path}/{model}-l{layer}-r{revision}-st0.25x128-activations.parquet"

	models = {
	"gemma-2b-r": "gemma-2b-residuals",
	"phi-3": "phi"
	}

	tokenizers = {
	"gemma-2b-r": "alpindale/gemma-2b",
	"phi-3": "microsoft/Phi-3-mini-4k-instruct"
	}

	token_tables = {
	"gemma-2b-r": pq.read_table("weights/tokens_gemma.parquet"),
	"phi-3": pq.read_table("weights/tokens.parquet")
	}

	with gr.Blocks() as demo:
	feature_table = gr.State(None)

	model_name = gr.Dropdown(["phi-3", "gemma-2b-r"], label="Model")

	revision_dropdown = gr.Dropdown(revisions, label="Revision")

	layer_dropdown = gr.Dropdown(layers[4], label="Layer")

	def update_features(layer):
	feature_dropdown = gr.Dropdown(features[layer].keys())
	return feature_dropdown

	def update_layers(revision):
	layer_dropdown = gr.Dropdown(layers[revision])
	return layer_dropdown

	frequency = gr.Number(0, label="Total frequency (%)")
	extra_tokens = gr.Number(0, label="Extra Max Act Tokens")

	# layer_dropdown.input(update_features, layer_dropdown, feature_dropdown)
	# histogram = gr.LinePlot(x="activation", y="freq")

	revision_dropdown.input(update_layers, revision_dropdown, layer_dropdown)

	feature_input = gr.Number(0, label="Feature")

	autoi_expl = gr.Textbox(label="AutoInterp Explanation")
	selfe_expl = gr.Textbox(label="SelfExplain Explanation")

	cm = gr.HighlightedText()
	frame = gr.Highlightedtext()

	def update(model, revision, layer, feature, extra_tokens):
	correction = 1
	if "gemma" in model:
	correction = 0

	token_table = token_tables[model]

	tokenizer_name = tokenizers[model]

	tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
	table = pq.read_table(make_cache_name(layer, revision, models[model]))
	table_feat = table.filter(pc.field("feature") == feature).to_pandas()

	# freq_t = table_feat[["activation", "freq"]]
	total_freq = float(table_feat["freq"].sum()) * 100

	table_feat = table_feat[table_feat["activation"] > 0]
	table_feat = table_feat[table_feat["freq"] > 0]

	table_feat = table_feat.sort_values("activation", ascending=False)

	texts = table_feat["token"].apply(
	lambda x: [tokenizer.decode(y).replace("\n", " ") for y in token_table[max(0, x - nearby + correction - extra_tokens):x + extra_tokens + nearby + 1 + correction]["tokens"].to_numpy()]
	).tolist()

	# texts = [tokenizer.tokenize(text) for text in texts]
	activations = table_feat["nearby"].to_numpy()

	activations = [[0] * extra_tokens + a.tolist() + [0] * extra_tokens for i, a in enumerate(activations) if len(texts[i]) > 0]
	texts = [text for text in texts if len(text) > 0]

	for t, a in zip(texts, activations):
	assert len(t) == len(a)

	if len(activations) > 0:
	activations = np.stack(activations) * stride
	max_act = table_feat["activation"].max()
	activations = activations / max_act

	highlight_data = [
	[(token, activation) for token, activation in zip(text, activation)] + [("\n", 0)]
	for text, activation in zip(texts, activations)
	]

	flat_data = [item for sublist in highlight_data for item in sublist]

	color_map_data = [i / n_bins for i in range(n_bins + 1)]
	color_map_data = [(f"{i*max_act:.2f}", i) for i in color_map_data]
	else:
	flat_data = []
	color_map_data = []

	if feature in features[revision][layer]:
	autoi_expl = features[revision][layer][feature]["explanation"]
	selfe_expl = features[revision][layer][feature]["gen_explanations"]
	if selfe_expl is not None:
	selfe_expl = "\n".join(
	f"{i+1}. \"{x}\"" for i, x in enumerate(selfe_expl)
	)

	else:
	autoi_expl = "No explanation found"
	selfe_expl = "No explanation found"
	return flat_data, color_map_data, total_freq, autoi_expl, selfe_expl


	# feature_dropdown.change(update, [layer_dropdown, feature_dropdown, tokenizer_name], [frame, cm, frequency, autoi_expl, selfe_expl])
	feature_input.change(update, [model_name, revision_dropdown, layer_dropdown, feature_input, extra_tokens], [frame, cm, frequency, autoi_expl, selfe_expl])


	if __name__ == "__main__":
	demo.launch(share=True)