主成分分析(PCA, Principal Component Analysis)是 GraphPad Prism 9 新增的功能,本篇文章就以 Prism 9 为例为大家详细介绍主成分分析(PCA)功能。
什么是【主成分分析(PCA, Principal Component Analysis)】
主成分分析(PCA)是一种强大的探索性模型,可以降低数据的维度。它非常适用于有大量变量(列)的情况,也适用于分析那种列多于行的表。 通过PCA,你可以实现:可视化你的数据,以便进行探索性分析(exploratory analyses)。你可以选择任意两个主成分使用分数图绘制数据行,或使用载荷图绘制数据列,从而寻找数据的感兴趣的特征;减少用于后续分析(如主成分回归,PCR)的预测因子数量。 关键词:降维;特征选择与提取;数据投射较低维度中。
PCA通过提取数据中的线性关系来工作。实践中,使用这些线性关系就足够了,且不可否认,它之所以如此流行的一部分原因是线性假设极大地简化了计算。然而,PCA主要的一个限制在于它是忽视非线性关系的。例如有3列数据:X1、X2和X3。如果X1 = X2*X3(非线性关系),那么PCA就不能准确的提取出该关系。相比之下,PCA能够提取出变量之间复杂的线性关系。
如何进行主成分分析?—— 以 Prism 9 为例
在[Design]选项卡中,你可以指定用于PCA的测量变量值(有时称为预测变量或只是称为X变量)。PCA分析是完全基于测量变量,这让你可以确定变量的底层结构、识别变量的类型或行,并可视化你的数据。
至少选择两个连续变量来包含到主成分分析中。
如果你希望对减少维度的主成分分数运行主成分回归(PCR),请选中此选项并选择因变量(结果)。
2)选项(Options):选择如何标准化列以及如何确定要保留的主成分的数量。
在[Options]选项卡中,需要你做两个重要的决定,它们会严重影响之后PCA的结果和结论。一般建议对标准化数据执行PCA,并通过“并行分析(Parallel Analysis)”来选择成分数量。如果你想选择其它方法,需要先明确为什么再操作。
[Method]:这里需要决定是对标准化数据还是中心化数据执行PCA。Standardized data - 推荐,也称为相关矩阵上的主成分分析,适用于变量单位不相同的情况;Centered data - 对中心化数据执行主成分分析,是适用于单位相同的变量的情况,又称为协方差矩阵主成分分析(PCA on the covariance matrix)。但是这较少使用。
[Method for selecting principal components]:选择主成分的过程就是确定降维数据集在执行PCA后中将具有多少个“维度”的过程。
注:Prism 9 提供了方法帮助选择:平行分析(Parallel analysis)- 推荐;根据特征值选择主成分;根据总解释方差的百分比选择主成分;选择所有主成分。
3)输出(Output):自定义报告的输出。还可以选择包括其它用于绘制图形的变量(如,用于符号颜色、大小、标签等)
在[Output]选项卡中,你可以自定义PCA的输出,并定义附加变量以包含在结果表中。这些额外的变量可以用于绘图和后续分析。
[Additionally report]:选择是否报告可选结果表。
[Additional variables for graphing (PC scores table)]:选择可选变量来优化图形。
4)图表(Graphs):选择需要Prism绘制的图表。
PCA生成的图表包括:
Score Plot 得分图
Loadings Plot 载荷图
Biplot 双标图
Scree Plot 陡坡图
Proportion of Variance Plot 方差比例图
英文注释参考:Principal component regression (PCR) is a combination of multiple linear regression and principal component analysis. One of the primary goals of Principal Component Analysis is to reduce the number of predictors for a future analysis, which also reduces the number of degrees of freedom in the model.
如何解读主成分分析结果?- 以Prism 9 为例
A. 表格形式结果(Tabular Results):表格形式结果提供了分析的一个快照,包括特征值,解释方差比例,和选择的成分的数量。所有的主成分都包含在这个表中,即使只选择了一些成分。
B. 特征值(Eigenvalues):A列列出了特征值,它量化了每个主成分解释的方差量。B列尽当在[Method for selecting principal components]中选择平行分析时才显示。
C. 载荷(Loadings):根据数据是标准化还是中心化的,载荷分别是数据列和特征向量之间的相关系数或协方差。 D. 主成分得分(Principal Component Scores):主成分得分是由PCA得出的,用于绘制数据行,并用于运行进一步的分析,如多重线性或逻辑回归。它们是通过将标准化或中心化数据乘以特征向量计算得出的。分数只有在该选项时才显示。
A. 标准化或中心化数据(Standardized or Centered Data):在PCA对话框的options选项卡中,你选择在标准化(居中和缩放)或中心化数据上运行PCA。这个可选选项卡显示了这些值,它们是PCA计算的输入值。
B. 特征向量(Eigenvectors):特征向量是主成分分析(以及许多其他多元分析方法)的支柱,因为它们定义了解释输入数据中最大方差的向量。下表中的每一列值代表一个特征向量。特征向量只在选择了对应的方法时才显示。
C. 变量贡献矩阵(Comtribution matrix of variables):变量的贡献矩阵表示哪些变量对主成分的计算做出了“贡献”。每一行代表一个变量,每一列代表一个主成分。 D. 变量与主成分之间的相关矩阵(Correlation matrix between variables and Principal Components):如果你对标准化(居中和缩放)数据运行PCA,那么这个矩阵与载荷矩阵相同。但是,如果你对中心化数据运行PCA,那么载荷矩阵就是变量与特征向量的协方差。在这种情况下,你可能希望查看相关矩阵,以便更容易地解释载荷的大小。 E. 实例贡献矩阵(Contribution matrix of cases):与变量的贡献矩阵类似,实例的贡献矩阵表示相对于其他行,哪些行对主成分有贡献。每一行代表一种实例(原始数据表中的行),每一列代表一个主成分。注意,只有在对应的方法勾选后,该矩阵才会在表中显示。
F. 变量之间的相关or协方差矩阵(Correlation/Covariance matrix between variables):变量之间的相关(或协方差)矩阵,就是数据输入列的相关(或协方差)矩阵。如果数据已做了标准化(居中和缩放),那它与相关矩阵是相同的。
G. 主成分回归的结果(PCR results):主成分回归是PCA和多元线性回归(MLR)的结合。通常,通过PCA降低维数的目标是PCR,Prism提供了在PCA中执行PCR的能力。
相关推荐:
「视频教程」GraphPad Prism 8 软件操作教程 中文字幕
「视频教程」手把手教你用GraphPad Prism做符合SCI投稿的标准图
GraphPad Prism 7 for Win / Mac 完美破解版 统计绘图软件 附安装教程
GraphPad Prism 8.4.3 for Win/Mac 最新完美激活中英文版医学绘图软件+安装教程
GraphPad Prism 9 for Win/Mac 完美学习版+安装教程