GraphPad Prism 能解决样本量的问题吗？为什么要预先选择样本量？_Graphpad Prism_统计与绘图_实用技巧

“生物医学试验中合理的样本量是决定整个试验成败的重要因素之一。“

样本量需要多大？答案当然是“视情况而定”。

GraphPad Prism官方统计教程中解释了样本量会受哪些因素影响。

但大家需要注意，Prism不会进行任何样本量计算，而是从几个不同的角度告诉大家如何决定合适的样本量、如何计算样本量等。

基于手中现有的统计工具，关于“样本量测定”大家可以看看GraphPad能提供哪些有效信息。

GraphPad能解决样本量的问题吗？

关于”样本量测定“，你需要先思考.....

许多实验和临床试验都存在受试者数量过少的问题。样本量较少的研究会浪费精力，因为可能导致检测不到实质性治疗效果。即使治疗实质上改变了结果，这项研究也只有很小的机会发现具有“统计显著性”的效果。

因此，在前期计划研究时，你需要选择合适的样本量。所需样本量取决于你对以下问题的回答：

你希望你的数据如何分布？
你愿意冒险去发现差异吗？
你希望这个差异程度有多大？
如果存在差异，你需要有多确定你的研究能发现这些差异？换言之，你需要哪些统计检验力？

第一个问题要求你预估期望看到的标准偏差。如果你不能预估标准偏差，那么就无法计算出你的研究需要多少名受试者。如果你期望的是大量散布，那很难将实际效果与random noise区分开，这就要求你的研究包含大量的受试者。

第二个问题是关于你对“统计学显著性”的理解。几乎所有研究人员都选择5%显著性水平，这意味着小于0.05的P值视为具有“统计学显著性”。假如你选择较低的显著性水平（如1%），那相应地你需要更多受试者。

第三和第四个问题较为复杂。大家都倾向于计划一个能够检测到极小差异的研究，这需要很大的样本量。大家也都想设计一个具有多项检验力的研究，因此若治疗确实有效果，那么肯定会得出“统计学显著性”的结果，但仍需要很多受试者。

没有样本量计算工具，我可以借鉴哪些信息......

GraphPad StatMate不需要你回答后两个问题，而是直接在表格中显示结果，以便你查看样本大小、检验力以及可以检测的效应量之间的权衡。你可以通过观察这张表，考虑试验的时间、费用和风险，然后决定合适的样本量。

注意：StatMate并没有直接回答“我需要多少受试者？”的问题，而是给出了相关问题的答案 - “如果我使用N名受试者，那么我能知道什么信息？”

Parker和Berman建议使用这种计算样本量的方法。

在某些情况下，StatMate的计算会帮助你认识到，计划的受试者数量无法让你了解到你想知道的信息。这点非常有用，因为我们尚在计划阶段，取消这种浪费时间和金钱又没有足够检验力的试验是很明智的。而且，如果涉及任何临床风险或公共资金支出，那么开展这类研究甚至会视为不合伦理。

为什么都建议样本量大......

样本量大的一个好处是你检测特定效果的检验力更高，或者以恒定检验力检测到更小的效应量。但选择更大样本量（如有可能）还有另外一个原因。在样本量更大的情况下，你可以更好地评估数据的分布。从高斯分布或对数正态分布抽样这一假设是否合理？

样本越大，就越容易评估。

为何要预先选择样本量？

“一边研究一边确定样本量的吸引力‍？”

对于许多人而言，在研究开始前计算样本量是件令人讨厌的事情。

大家可能会提出疑问：为什么不在收集数据的时候进行分析呢？如果结果不具有统计学显著性，表示需要收集更多数据，重新分析。如果结果具有统计学显著性，就可以停止研究，不要把时间和金钱浪费在更多的数据收集上。

但这个方法会有一个问题：如果你不喜欢这个结果，你会想要继续做；但如果你喜欢这个结果，你会停下来。结果变成，如果虚假设（null hypothesis）为真，获得“显著”结果的机率远高于5%。

“模拟展示没有预先选择样本量的危险！”

下图我们通过模拟数据说明这一点。

我们通过绘制高斯分布的值，模拟数据（平均值 = 40，SD = 15，*这些值是任意的数值）。两组均使用完全相同的分布进行模拟。我们在每组中选择N = 5，计算非配对t检验并记录P值。然后我们给每组增加一名受试者（此时，N = 6），并重新计算t检验和P值。我们重复该过程，直至每组中的N = 100。然后我们重复三次整个模拟的过程。这些模拟是通过比较具有相同总体平均值的两组进行的。因此，我们获得的任何具有“统计学显著性”的结果都必须是巧合-I型错误。

该图在Y轴上绘制P值，在X轴上绘制样本量（每组）。图底部的绿色阴影区域显示P值小于0.05，因此被视为“具有统计意义”。

下载 (6).jpeg

绿色曲线显示了第一组模拟实验的结果。N = 7时，P值小于0.05，但对于所有其他样本量，P值高于0.05。红色曲线显示了第二个模拟实验。当N = 61以及N = 88或89时，P值均小于0.05。蓝色曲线显示了第三个模拟实验。当N = 92至N = 100时，其P值小于0.05。

如果采用顺序方法，我们会宣布所有三个实验的结果均“具有统计学显著性”。当绿色实验中的N = 7时，我们会停止，那么永远不会看到其曲线的虚线部分。当N = 61时，我们会停止红色实验，而当N = 92时，我们会停止蓝色实验。在这三种情况下，我们都将称结果具有“统计学显著性”。

由于这些模拟是为两个总体的真实平均值相同的值创建，因此任何具有“统计学显著性”的声明均为I型错误。如果虚假设为真（两个总体的平均值相同），我们期望在5％的实验中看到这种I型错误（如果我们使用传统的alpha = 0.05的定义，那么P值小于0.05的声明为重大）。

但采用这种顺序方法，我们所有三个实验都会导致I型错误。 如果将实验延长足够长的时间（无限长N），所有实验最终都将达到具有“统计学显著性”。当然，在某些情况下，即使不具有“统计学显著性”，最终也会放弃。这种顺序方法也将在超过5%实验中产生“显著”结果。所以即使零假设为真，该方法也是无效的。

最后，很重要的一点...

选择一个样本量且坚持下去是很重要的。

看到想要的结果就停下来，或者看到不想要的结果就继续进行，是一种自欺欺人的表现。换句话说，实验在结果不具有统计学显著性的时候继续，但在具有统计学显著性的时候停止，则错误地认为结果具有统计显着性的机会远大于5％。

有一些特殊的统计学技术用于顺序分析数据。如果结果不明确，可以增加更多受试者，如果结果清晰，就停止实验。

科研星球

GraphPad Prism 能解决样本量的问题吗？为什么要预先选择样本量？

标签