Publications

2025

DataDecide: How to Predict Best Pretraining Data with Small Experiments
_{Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge}
_{ICML 2025 // [paper] [data] [evals] [code] [models] [press]}

2024

Paloma: A Benchmark for Evaluating Language Model Fit
_{Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy,
Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge}
_{NeurIPS 2024 // [paper] [data] [code] [models]}

Scalable Data Ablation Approximations for Language Models through Modular Training and Merging
_{Clara Na, Ian Magnusson, Ananya Harsh Jha, Tom Sherborne, Emma Strubell, Jesse Dodge, Pradeep Dasigi}
_{EMNLP 2024 // [paper]}

OLMo: Accelerating the Science of Language Models
_{Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi}
_{ACL 2024 // [paper] [model] [code] [blog] [press]}

Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
_{Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Evan Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo}
_{ACL 2024 // [paper] [data] [code] [blog] [press]}

What’s In My Big Data?
_{Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge}
_{ICLR 2024 // [paper] [code] [demo] [press]}

2023

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
_{Dirk Groeneveld, Anas Awadalla, Iz Beltagy, Akshita Bhagia,
Ian Magnusson,
Hao Peng, Oyvind Tafjord, Pete Walsh, Kyle Richardson, Jesse Dodge}
_{arxiv // [paper] [code]}

Reproducibility in NLP: What Have We Learned from the Checklist?
_{Ian Magnusson, Noah A. Smith, Jesse Dodge}
_{Findings of ACL 2023 // [paper]}

2022

Exploring The Landscape of Distributional Robustness for Question Answering Models
_{Anas Awadalla, Mitchell Wortsman, Gabriel Ilharco, Sewon Min, Ian Magnusson, Hannaneh Hajishirzi, Ludwig Schmidt}
_{Findings of EMNLP 2022 // [paper]}

Just-DREAM-about-it: Figurative Language Understanding with DREAM-FLUTE
_{Yuling Gu, Yao Fu, Valentina Pyatkin, Ian Magnusson, Bhavana Dalvi, Peter Clark}
_{FigLang Workshop, EMNLP 2022 // [paper] [code]}

Towards a Multi-Entity Aspect-Based Sentiment Analysis for Characterizing Directed Social Regard in Online Messaging
_{Joan Zheng, Scott Friedman, Sonja Schmer-Galunder, Ian Magnusson, Ruta Wheelock, Jeremy Gottlieb, Diana Gomez, Chris Miller}
_{Workshop on Online Abuse and Harms, NAACL 2022 // [paper]}

2021

Extracting Fine-Grained Knowledge Graphs of Scientific Claims: Dataset and Transformer-Based Results
_{Ian Magnusson, Scott Friedman}
_{EMNLP 2021 // [paper] [data]}

Invertible Frowns: Video-to-Video Facial Emotion Translation
_{Ian Magnusson, Aruna Sankaranarayanan, Andrew Lippman}
_{ADGD Workshop, ACM Multimedia 2021 // [paper] [code]}

From Unstructured Text to Causal Knowledge Graphs: A Transformer-Based Approach
_{Scott Friedman, Ian Magnusson, Vasanth Sarathy, Sonja Schmer-Galunder}
_{Advances in Cognitive Systems 2021 // [paper]}

Extracting Qualitative Causal Structure with Transformer-Based NLP
_{Scott Friedman, Ian Magnusson, Sonja Schmer-Galunder}
_{Qualitative Reasoning Workshop IJCAI 2021 // [paper]}

Toward Transformer-Based NLP for Extracting Psychosocial Indicators of Moral Disengagement
_{Scott Friedman, Ian Magnusson, Sonja Schmer-Galunder, Ruta Wheelock, Jeremy Gottlieb, Pooja Patel, Christopher Miller}
_{CogSci 2021 // [paper]}

Systematizing Confidence in Open Research and Evidence (SCORE)
_{Nazanin Alipourfard, Beatrix Arendt, Daniel Benjamin, Noam Benkler, Michael Bishop, Mark Burstein, Martin Bush, James Caverlee, Yiling Chen, … Ian Magnusson et al.}
_{SocArXiv 2021 // [paper]}