CCLA (Cancer Cell Line）使用指南，细胞系相关数据库_数据库使用指南_实用技巧

我们在做细胞实验的时候，经常会有这样的疑虑，细胞被那么多人蹂躏了那么多次了，那我现在操作的细胞当时我以为的那个细胞系嘛？会不会有人在传代的时候不小心把这个细胞系的名字写成了另外的名字，然后就这样一直传下去了呢。

这种问题，除非买一株新的细胞，不然的话，就会一直有这个疑虑的。今天呢，就给大家介绍一个新发表的数据库。这个数据库有可能会解决大家的疑虑的，这个数据库叫做CCLA (Cancer Cell Line , http://bioinfo.life.hust.edu.cn/web/CCLA/)。

下载.jpeg

数据库原理

在了解这个数据库操作之前，我们可以来了解一下这个数据库是怎么来进行肿瘤细胞系认证的。基本的操作分析流程类似于我们做模型预测的流程。所以其实通过这个流程还是可以了解一下大致的模型预测都是怎么做的。

1. 背景数据收集

如果要对一个未知的细胞系进行认证的话。优先的就是需要收集已知的细胞系表达数据。利用这些数据当作一个背景数据集。这个数据库总共收集到了CCLE、GDSC以及CHCC三个数据库当中的1291个细胞系的基因组表达数据当作背景数据集。

下载 (1).jpeg

2. 构建模型

所有预测的性质的东西都是要基于之前的数据构建一个模型的。这个数据库在收集到上面的数据之后，下一步就是构建模型了。由于每个细胞系使用的基因组的表达表达数据是不一样的。所以就需要进行标准化。数据库通过ssGSEA的算法对所有细胞系的表达数据进行了标准化，进一步利用随机森林的方法构建了预测模型。

下载 (2).jpeg

3. 数据预测

模型构建好之后，就可以进行细胞系预测了。细胞系预测的数据使用的是细胞系的表达谱芯片或者是二代测序的表达数据。我们需要提交相关的表达数据。然后数据库会先自行进行标准化，然后来使用模型进行预测。

下载 (3).jpeg

数据库使用

介绍为了数据库的基本预测原理。那么对于数据库的使用就简单了。通过三步我们就能够预测细胞系种类了。

下载 (4).jpeg

其中预测的细胞系选择当中，我们可以选择类似CCLE这样900多个细胞系来一起预测。同时也可以选择单一的细胞系来进行预测。

下载 (5).jpeg

结果解读

对于数据库的结果，首先，数据库会展示每一个样本最可能是什么的总结。

下载 (6).jpeg

其次，对于每一个样本的信息也会有一个详细的结果，包括前五的可能的细胞系这样的话，如果我们的细胞系最可能的不是目标细胞系，在这里可以看看前五的有没有。毕竟结果还是有偏差的。

下载 (7).jpeg

写在最后

以上就是这个数据库的所有相关的东西了。关于数据库的时候，由于需要提供这个细胞系的表达谱的数据，所以相对来说还是有一定的门槛的。不过随着测序价格的降低，基本上应该都会有自己细胞系的测序结果的吧。

另外需要注意的是，其实我们在使用之前应该看一下这个数据库有没有包含自己想要验证的细胞系。如果没有的话，那肯定也就出不来结果了。

科研星球