Official Repo for ICLR 2024 paper MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback by Xingyao Wang*, Zihan Wang*, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng and …

Python 110 7 Updated Jun 4, 2024

allenai / open-instruct

Python 2,348 275 Updated Jan 29, 2025

alex-petrenko / sample-factory

High throughput synchronous and asynchronous reinforcement learning

Python 860 115 Updated Dec 31, 2024

balrog-ai / experiments

HTML 3 Updated Jan 29, 2025

swe-bench / SWE-bench

[ICLR 2024] SWE-bench: Can Language Models Resolve Real-world Github Issues?

Python 2,347 400 Updated Jan 22, 2025

FLAIROx / Kinetix

Reinforcement learning on general 2D physics environments in JAX.

Python 121 3 Updated Jan 27, 2025

facebookresearch / chameleon

Repository for Meta Chameleon, a mixed-modal early-fusion foundation model from FAIR.

Python 1,913 113 Updated Jul 29, 2024

facebookresearch / minihack

MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research

Python 487 60 Updated Aug 19, 2024

epignatelli / navix

Accelerated minigrid environments with JAX

Python 128 12 Updated Aug 1, 2024

circlemind-ai / fast-graphrag

RAG that intelligently adapts to your use case, data, and queries

Python 2,804 139 Updated Jan 22, 2025

b7leung / MLE-Flashcards

200+ detailed flashcards useful for reviewing topics in machine learning, computer vision, and computer science.

2,045 185 Updated Jun 12, 2024

kkuchar2 / leetcode_session_creator

JavaScript 50 14 Updated Aug 6, 2024

hesamsheikh / ml-retreat

Machine Learning Journal for Intermediate to Advanced Topics.

Jupyter Notebook 1,520 142 Updated Jan 20, 2025

xjdr-alt / entropix

Entropy Based Sampling and Parallel CoT Decoding

Python 3,216 317 Updated Nov 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Davide Paglieri DavidePaglieri

Achievements

Achievements

Highlights

Block or report DavidePaglieri

Stars

deepseek-ai / DeepSeek-R1

deepseek-ai / DeepSeek-V3

huggingface / open-r1

google / evojax

hardmaru / slimevolleygym

danijar / crafter

balrog-ai / BALROG

huggingface / smolagents

facebookresearch / coconut

BartekCupial / nle-code-wrapper

omry / omegaconf

allenai / discoveryworld

mlc-ai / mlc-llm

google-deepmind / lm_act

OpenRLHF / OpenRLHF

facebookresearch / hydra

xingyaoww / mint-bench