Daniel van Strien's picture

Daniel van Strien PRO

davanstrien

·

https://danielvanstrien.xyz/

AI & ML interests

Machine Learning Librarian

Recent Activity

updated a dataset about 4 hours ago

data-is-better-together/fineweb-c-progress

updated a dataset about 5 hours ago

librarian-bots/model_cards_with_metadata

updated a dataset about 22 hours ago

librarian-bots/dataset-columns

View all activity

Organizations

Posts 52

Post

1797

Came across a very nice submission from @marcodsn for the reasoning datasets competition (https://huggingface.co/blog/bespokelabs/reasoning-datasets-competition).

The dataset distils reasoning chains from arXiv research papers in biology and economics. Some nice features of the dataset:

- Extracts both the logical structure AND researcher intuition from academic papers
- Adopts the persona of researchers "before experiments" to capture exploratory thinking
- Provides multi-short and single-long reasoning formats with token budgets - Shows 7.2% improvement on MMLU-Pro Economics when fine-tuning a 3B model

It's created using the Curator framework with plans to scale across more scientific domains and incorporate multi-modal reasoning with charts and mathematics.

I personally am very excited about datasets like this, which involve creativity in their creation and don't just rely on $$$ to produce a big dataset with little novelty.

Dataset can be found here: marcodsn/academic-chains (give it a like!)

Articles 21

Article

305

Open-R1: Update #1

View all Articles

Collections 11

Papers 4

arxiv:2211.10086

arxiv:2211.05100

arxiv:2205.04738

arxiv:2204.05211

spaces 52

Temp Argilla

Progress Test

Display progress leaderboards and annotations

Running on CPU Upgrade

Huggingface Datasets Search V2

Display API documentation with Swagger UI

Smol Gradio Api

Generate concise summaries of Hugging Face card texts

Extractous

Extract text and metadata from documents

Running on Zero

ColPali fine-tuning Query Generator

Generate retrieval queries from document images

models 149

davanstrien/ModernBERT-based-Reasoning-Required

Text Classification • Updated 19 days ago • 205 • 7

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02

Text Generation • Updated Mar 13 • 5

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02-Q8_0-GGUF

Updated Mar 12 • 18

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_18-10-Q8_0-GGUF

Updated Mar 12 • 22

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q8_0-GGUF

Updated Mar 12 • 18

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q4_K_M-GGUF

Updated Mar 12 • 19

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-18

davanstrien/Smol-Hub-tldr

Text Generation • Updated Mar 11 • 8 • 9

davanstrien/fineweb-fra_latn-quality-transformer

Text Classification • Updated Mar 10 • 1

davanstrien/fineweb-swe_latn-quality-transformer

Text Classification • Updated Mar 10 • 1

datasets 344

davanstrien/magpie-preference

Viewer • Updated 3 days ago • 543 • 169 • 13

davanstrien/dataset-creation-scripts

Updated 4 days ago • 159 • 2

davanstrien/testarxiv-out

Viewer • Updated 4 days ago • 174k • 81

davanstrien/testarxiv

Viewer • Updated 4 days ago • 174k • 91

davanstrien/dataset_cards_with_metadata

Viewer • Updated 5 days ago • 55 • 82

davanstrien/images

Viewer • Updated 10 days ago • 3 • 72

davanstrien/would-you-read-it

Viewer • Updated 11 days ago • 268 • 51 • 4

davanstrien/llama-recipes

Viewer • Updated 12 days ago • 10 • 26

davanstrien/fine-reasoning-questions

Viewer • Updated 12 days ago • 244 • 683 • 16

davanstrien/fineweb-with-reasoning-scores-and-topics

Viewer • Updated 12 days ago • 10k • 108 • 1