Preprint

Before formal publication in a scholarly journal, scientific and medical articles are traditionally “peer reviewed.” In this process, the journal’s editors take advice from various experts—called “referees”—who have assessed the paper and may identify weaknesses in its assumptions, methods, and conclusions. Typically a journal will only publish an article once the editors are satisfied that the authors have addressed referees’ concerns.

Because this process can be lengthy, authors use the bioRxiv service to make their manuscripts available as “preprints” before peer review, allowing other scientists to see, discuss, and comment on the findings immediately. Readers should therefore be aware that articles on bioRxiv have not been finalized by authors, might contain errors, and report information that has not yet been accepted or endorsed in any way by the scientific or medical community.

An expanded reference catalog of translated open reading frames for biomedical research

S Chothani, J Ruiz-Orera, JAS Tierney, J Clauwaert, EW Deutsch, MM Alba, JL Aspden, PV Baranov, AA Bazzini, EA Bruford, MA Brunet, T Cardon, AR Carvunis, C Casola, JS Choudhary, K Dean, P Faridi, I Fierro-Monti, I Fournier, A Frankish, M Gerstein, N Hubner, Y Jiang, M Kellis, LW Kok, TF Martinez, G Menschaert, P Ni, S Orchard, X Roucou, J Rozowsky, M Salzet, M Siragusa, S Slavoff, MI Swirski, E Valen, JA Vizcaino, A Wacholder, W Wu, Z Xie, YT Yang, RL Moritz, J Mudge, S van Heesch, JR Prensner, OJ Rackham (Preprint). bioRxiv.

GENCODE: massively expanding the lncRNA catalog through capture long-read RNA sequencing

G Kaur, T Perteghella, S Carbonell-Sala, J Gonzalez-Martinez, T Hunt, T Madry, I Jungreis, C Arnan, J Lagarde, B Borsari, C Sisu, Y Jiang, R Bennett, A Berry, D Cerdan-Velez, K Cochran, C Vara, C Davidson, S Donaldson, C Dursun, S Gonzalez-Lopez, S Gopal Das, M Hardy, Z Hollis, M Kay, JC Montanes, P Ni, R Nurtdinov, E Palumbo, C Pulido-Quetglas, MM Suner, X Yu, D Zhang, JE Loveland, MM Alba, M Diekhans, A Tanzer, JM Mudge, P Flicek, FJ Martin, M Gerstein, M Kellis, A Kundaje, B Paten, ML Tress, R Johnson, B Uszczynska-Ratajczak, A Frankish, R Guigo (Preprint). bioRxiv.

Validation of Enhancer Regions in Primary Human Neural Progenitor Cells using Capture STARR-seq

SC Gaynor-Gillett, L Cheng, M Shi, J Liu, G Wang, M Spector, M Flaherty, M Wall, A Hwang, M Gu, Z Chen, Y Chen, P Consortium, JR Moran, J Zhang, D Lee, M Gerstein, D Geschwind, KP White (Preprint). bioRxiv.

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Yuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein (2023). arXiv.

The ENCODE4 long-read RNA-seq collection reveals distinct classes of transcript structure diversity

F Reese, B Williams, G Balderrama-Gutierrez, D Wyman, MH Celik, E Rebboah, N Rezaie, D Trout, M Razavi-Mohseni, Y Jiang, B Borsari, S Morabito, HY Liang, CJ McGill, S Rahmanian, J Sakr, S Jiang, W Zeng, K Carvalho, AK Weimer, LA Dionne, A McShane, K Bedi, SI Elhajjajy, S Upchurch, J Jou, I Youngworth, I Gabdank, P Sud, O Jolanki, JS Strattan, MS Kagda, MP Snyder, BC Hitz, JE Moore, Z Weng, D Bennett, L Reinholdt, M Ljungman, MA Beer, MB Gerstein, L Pachter, R Guigo, BJ Wold, A Mortazavi (Preprint). bioRxiv.

Compression-based Network Interpretability Schemes

J Warrell, H Mohsen, M Gerstein (2020). bioRxiv.

LESSeq: Local event-based analysis of alternative splicing using RNA-Seq data

J Leng, CJF Cameron, S Oh, E Khurana, JP Noonan, MB Gerstein (2019). bioRxiv.

An Expanded Registry of Candidate cis-Regulatory Elements for Studying Transcriptional Regulation

JE Moore, HE Pratt, K Fan, N Phalke, J Fisher, SI Elhajjajy, G Andrews, M Gao, N Shedd, Y Fu, MC Lacadie, J Meza, M Ganna, E Choudhury, R Swofford, NP Farrell, A Pampari, V Ramalingam, F Reese, B Borsari, M Yu, E Wattenberg, M Ruiz-Romero, M Razavi-Mohseni, J Xu, T Galeev, MA Beer, R Guigo, M Gerstein, J Engreitz, M Ljungman, TE Reddy, MP Snyder, CB Epstein, E Gaskell, BE Bernstein, DE Dickel, A Visel, LA Pennacchio, A Mortazavi, A Kundaje, Z Weng (Preprint). bioRxiv.

Multi-omic Characterization of HIV Effects at Single Cell Level across Human Brain Regions

J Yang, K Agrawal, J Stanley, R Li, N Jacobs, H Wang, C Lu, R Qu, D Clarke, Y Chen, Y Jiang, D Bai, S Zheng, H Fox, YC Ho, A Huttner, M Gerstein, Y Kluger, L Zhang, S Spudich (Preprint). bioRxiv.

BC-Design: A Biochemistry-Aware Framework for Highly Accurate Inverse Protein Folding

Xiangru Tang, Xinwu Ye, Fang Wu, Daniel Shao, Yin Fang, Siming Chen, Dong Xu, Mark Gerstein (2025). bioRxiv.

NoisyFlow: Differentially Private Optimal Transport Using Neural Networks for Secure Biomedical Data Sharing

Yunyang Li, Nikhil Khandekar, Skylar Wang, Varada Khanna, Julian Sanker, Mark B. Gerstein (2025). bioRxiv.

Generative World Models to compute protein folding pathways

A Ianeselli, J Im, E Cavallin, MB. Gerstein (2025). bioRxiv.

Efficient Privacy-Preserving Training of Quantum Neural Networks by Using Mixed States to Represent Input Data Ensembles

Gaoyuan Wang, Jonathan Warrell, Mark Gerstein (2025). arXiv.

STAGED: A Multi-Agent Neural Network for Learning Cellular Interaction Dynamics

J. F. Rocha, K. Xu, X. Sun, A. Krishna, D. Bhaskar, B. Mongeon, M. Craig, MB Gerstein, S. Krishnaswamy (2025). arXiv

Latent Evolutionary Signatures: A General Framework for Analyzing Music and Cultural Evolution

J Warrell, L Salichos, M Gancz, MB Gerstein (2024). J R Soc Interface 21: 20230647.

Return to front page