Patel

Kimish

AI & ML interests

None yet

Recent Activity

updated a model about 18 hours ago

Kimish/Qwen3-4B-untied-8da4w

published a model about 18 hours ago

Kimish/Qwen3-4B-untied-8da4w

updated a model about 18 hours ago

Kimish/Qwen3-4B-untied-weights

View all activity

Organizations

Kimish's activity

updated a model about 18 hours ago

Kimish/Qwen3-4B-untied-8da4w

Text Generation • Updated about 18 hours ago • 10

published a model about 18 hours ago

Kimish/Qwen3-4B-untied-8da4w

Text Generation • Updated about 18 hours ago • 10

updated a model about 18 hours ago

Kimish/Qwen3-4B-untied-weights

Updated about 18 hours ago

published a model about 18 hours ago

Kimish/Qwen3-4B-untied-weights

Updated about 18 hours ago

reacted to wassemgtk's post with 😎 22 days ago

Post

2854

I’ve been diving into the iRoPE architecture from Llama 4—a game-changer for long-context models! It interleaves local attention (with RoPE) for short contexts and global attention (with inference-time temp scaling) for long-range reasoning, aiming for infinite context. I’m going to try writing iRoPE—who wants to help?

Code: https://github.com/wassemgtk/iRoPE-try/blob/main/iRoPE.ipynb

1 reply