Data filtering on reasoning requirement

Papers like [BioMed-R1](https://arxiv.org/abs/2505.11462) discuss how many examples in training are knowledge-heavy and not reasoning-heavy and filtering out such examples can help training.

Write a ligthweight script that, given a HuggingFace dataset like https://huggingface.co/datasets/open-thoughts/OpenThoughts2-1M or https://huggingface.co/datasets/GeneralReasoning/GeneralThought-430K, filters/tags only samples that require reasoning and not just knowledge.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Data filtering on reasoning requirement #2

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Data filtering on reasoning requirement #2

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions