Science Bulletin, Volume 70, Issue 4, 26 February 2025, Pages 452-453, https://doi.org/10.1016/j.scib.2024.10.021
MultiTroph 参与成员: Michael C. Orr, Georg Albert, Arong Luo, Huijie Qiao, Ming-Qiang Wang, Douglas Chesters, Chao-Dong Zhu
摘要: 本文探讨了“暗数据”的挑战,即那些在技术上可获取但实际上难以访问的科学数据,其原因包括元数据缺失、标准化不足或存储库消失。作者认为,尽管开放科学政策正在普及,但不一致的数据共享实践阻碍了大规模生物学研究和数据的长期可用性。他们提议采用标准化、未来兼容的数据格式,强制性元数据文档,集中式索引,以及存储库改进(包括DOI、文件级访问和脚本的交叉链接),以确保数据集具备完整性、可读性、无错误性、可访问性和非冗余性(CLEAN)。
结论: 为防止数据丢失并提升可重复性,亟需对数据仓库进行结构性改革并加强期刊政策,同时采取追溯性措施以恢复历史上的暗数据集。若不立即采取行动,生物学新数据的快速生成将持续被同等速度的数据丢失所抵消,从而加剧知识缺口。