学术英文资源站

Data

Data Availability Statements: English Expressions for Open Science Compliance

自 2023 年起,全球超过 85% 的顶级学术期刊(涵盖 Nature、Science、Cell 旗下系列)已强制要求投稿时附带 **Data Availability Statement(数据可用性声明)**。根据 COPE(出版伦理委员会)2024 年度的《期刊编辑指南》,未提供有效数据声明的稿件在同行评审…

自 2023 年起,全球超过 85% 的顶级学术期刊(涵盖 Nature、Science、Cell 旗下系列)已强制要求投稿时附带 Data Availability Statement(数据可用性声明)。根据 COPE(出版伦理委员会)2024 年度的《期刊编辑指南》,未提供有效数据声明的稿件在同行评审阶段的退稿率高达 42%。同时,欧盟《地平线欧洲》计划(2021-2027)明确规定,所有受资助项目必须遵循 FAIR 数据原则(可发现、可访问、可互操作、可重用),并在论文中明确声明数据存放位置与访问条件。对于中国科研人员而言,撰写一份既符合期刊要求、又满足开放科学规范的英文数据声明,已成为投稿前的必备技能。本文基于 Springer Nature 2024 年发布的《数据可用性声明最佳实践》及 PLOS ONE 的官方模板,系统梳理 7 类核心表达句式,帮助你在 10 分钟内完成合规声明。

数据可用性声明的核心构成要素

一份标准的 Data Availability Statement 需明确回答三个问题:数据存储在哪里、如何获取、是否存在访问限制。根据 STM(国际科技与医学出版商协会)2023 年《数据政策白皮书》,约 73% 的期刊要求声明包含 持久标识符(如 DOI、Handle)、存储库名称(如 Figshare、Zenodo、NCBI)以及 访问条件(公开/受限/按需提供)。避免使用模糊表述如 “Data available upon request”,因为 Nature 系列期刊 自 2022 年起已明确禁止此类声明,除非数据涉及隐私或法律限制。以下将按数据开放程度分类,逐一给出标准英文模板。

公开存储库中的数据集

核心句式:“The datasets generated during and/or analysed during the current study are available in the [Repository Name] repository, [Persistent Identifier].”

这是最通用的表达,适用于已上传至 Figshare、Zenodo、Dryad、NCBI GEO 等公开存储库的数据。例如:“The datasets generated during the current study are available in the Figshare repository, https://doi.org/10.6084/m9.figshare.12345678.” 若数据分属多个存储库,可并列列出。PLOS ONE 2024 年模板 强调,必须包含 版本号访问日期,以支持数据溯源。

补充学科特定存储库

对于生物学领域,NCBI Sequence Read Archive 要求声明格式为:“The raw sequencing data have been deposited in the NCBI Sequence Read Archive under accession number PRJNA123456.” 参照 Nature Protocols 2023 年作者指南,还应注明数据处理的软件版本(如 BWA v0.7.17),方便读者复现分析。

数据与论文同步发布

若数据在投稿时尚未公开,可使用 embargo 条款“The datasets will be made publicly available upon publication via the Zenodo repository (https://zenodo.org/).” 但需注意,Science 期刊 要求数据在接收后 30 天内必须公开。

补充材料中的表格或附录

核心句式:“All data generated or analysed during this study are included in this published article [and its supplementary information files].”

适用于数据量较小、可直接嵌入论文附录的情况。例如:“The raw measurements for all 200 samples are provided in Supplementary Table S1.” 根据 Elsevier 2024 年《数据政策》,补充材料需以 机器可读格式(如 .csv、.xlsx)提交,而非图片式 PDF。若数据包含敏感信息(如患者年龄),可注明:“Individual participant data are not publicly available due to privacy restrictions, but aggregated data are provided in Supplementary Table S2.”

限制性补充材料

部分期刊允许补充材料设置访问权限,例如:“Supplementary Figures S1–S5 are available under restricted access for 12 months post-publication; access requests can be sent to the corresponding author.”BMJ 期刊 建议尽量缩短限制期,以符合开放科学趋势。

受保护或敏感数据的声明

核心句式:“The data that support the findings of this study are available from [Third Party Name], but restrictions apply to the availability of these data, which were used under license for the current study, and so are not publicly available.”

此句式适用于涉及患者隐私(如 HIPAA 合规数据)、商业机密或第三方授权数据。例如:“The de-identified patient data used in this study were obtained from the UK Biobank under application ID 12345, and are not publicly available due to data sharing agreements.” ICMJE(国际医学期刊编辑委员会)2023 年指南 明确要求,此类声明必须说明 数据访问的替代途径(如向数据管理委员会提交申请)。

基于伦理限制的数据

若数据因伦理审查委员会(IRB)要求无法公开,可写:“Data cannot be shared publicly because of ethical restrictions imposed by the Institutional Review Board of [University Name]. Researchers who meet the criteria for access to confidential data may contact the corresponding author.” 注意:PLOS ONE 2024 年政策 要求此类声明附带伦理批准编号。

按需提供数据的声明

核心句式:“The datasets used and/or analysed during the current study are available from the corresponding author on reasonable request.”

尽管部分期刊已限制此表述,但在某些学科(如社会科学、临床医学)仍被允许。Springer Nature 2024 年《数据政策》 规定,此类声明必须说明 响应时限(如 “within 2 weeks”)及 数据格式。例如:“The anonymized survey data are available from the corresponding author upon reasonable request, within 4 weeks of the request, in SPSS .sav format.” 避免使用 “upon request” 而不加任何条件,因为这可能导致 COPE 2023 年报告 中提到的数据可用性争议。

代码与软件数据

若核心数据是代码或算法,可写:“The custom Python code developed for this study is available from GitHub (https://github.com/username/repository) upon reasonable request, with a DOI provided via Zenodo.” 参照 Nature Computational Science 2023 年指南,代码应附带 README 文件及依赖环境说明。

无新数据生成的声明

核心句式:“No datasets were generated or analysed during the current study.”

适用于综述、理论分析或方法学论文。例如:“This article is a review of existing literature and does not involve the generation of new data.”Elsevier 2024 年《数据政策》 建议,即使无新数据,也应引用所有引用的公开数据集(如 “All cited datasets are listed in the References section”)。若论文包含重新分析已有数据,可写:“This study re-analysed publicly available data from the World Bank Open Data portal (https://data.worldbank.org/).”

模拟数据声明

对于计算模拟研究:“All simulation data were generated using the parameters described in the Methods section; no experimental data were collected.” 参照 IEEE Transactions 2023 年作者指南,应说明模拟软件的版本及随机种子设置。

数据可用性声明的语言规范与常见错误

根据 Wiley 2024 年《作者语言指南》,声明应使用 主动语态第一人称复数(we have deposited / we provide)。避免被动语态如 “Data are available”,因其模糊性可能导致编辑要求重写。常见错误 包括:未提供直接链接(仅写 “available from Figshare” 而不含 DOI)、未区分分析数据与原始数据(应分别声明)、使用非标准缩写(如 “GSE12345” 未注明数据库名称)。此外,Springer Nature 2024 年抽查 显示,约 31% 的声明存在 DOI 格式错误(如缺少 https://doi.org/ 前缀),建议在提交前通过 CrossRef 验证工具 检查。

多期刊投稿时的版本控制

若论文同时投稿至多个期刊(如 preprint 服务器 + 期刊),声明应保持一致。arXiv 2024 年政策 要求预印本中的声明与最终发表版本完全匹配,否则可能触发撤回。

FAQ

Q1:我的数据存放在机构云盘(如百度网盘),可以用在 Data Availability Statement 中吗?

不可以。 绝大多数国际期刊要求数据存放在 持久化、可索引的公开存储库(如 Figshare、Zenodo、Dryad),而非个人网盘。根据 PLOS ONE 2024 年政策,百度网盘等平台因链接易失效、无 DOI 标识,会被视为“不可靠存储”。建议将数据上传至 Zenodo(免费,单文件上限 50 GB)或 Figshare(免费,20 GB 以内),10 分钟内即可生成 DOI。

Q2:如果数据涉及专利或商业机密,如何写声明?

使用 受保护数据声明模板,明确说明限制原因和替代获取路径。例如:“The raw data contain proprietary information related to [Company Name]’s manufacturing process. Researchers may request access by signing a non-disclosure agreement with the corresponding author.” 根据 Nature Biotechnology 2023 年指南,此类声明需附带 保密协议模板 的引用,并注明审批时限(通常 30 个工作日)。

Q3:声明中必须包含代码吗?只写数据可以吗?

取决于期刊政策。Science 系列期刊 自 2023 年起要求同时声明 代码可用性,即使代码已公开。建议统一写:“The custom code and data supporting this study are available at [GitHub URL] under the MIT license.” 若代码未公开,需说明原因(如 “Code is proprietary and used under license”)。Elsevier 2024 年《数据政策》 指出,约 68% 的计算机科学论文因缺少代码声明而被要求修订。

参考资料

  • COPE. 2024. Journal Editing Guidelines: Data Availability Requirements. Committee on Publication Ethics.
  • Springer Nature. 2024. Best Practice Guidelines for Data Availability Statements. Springer Nature Research Integrity Group.
  • PLOS ONE. 2024. Data Availability Policy and Template Statements. Public Library of Science.
  • STM. 2023. Data Policy White Paper: Persistent Identifiers and Repository Standards. International Association of Scientific, Technical and Medical Publishers.
  • Unilink Education. 2024. Academic Writing Compliance Database: Data Statement Patterns in Nature and Science (2020–2024).