呐,等你关注都等出蜘蛛网了~
 
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                                
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                               
    
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过 文献速递 这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递 栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
文章信息
单细胞技术在过去的几年间发展迅猛,但是由于得到的单细胞样品是某一时刻的静态,2018年,单细胞大牛组Sten Linnarsson和Peter V. Kharchenko在Nature上发文报道了RNA velocity of singlecells, 提出通过分析不同类群(Cluster)中RNA合成的速度(基因表达的时间导数),来深化理解单细胞RNA的动态变化过程。
 
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                               大牛文章中提出的idea看起来总是棒棒的,如何应用到自己的数据分析中才是最关键的一步(当然,这里往往是n步……)
小老板很早就和我说,嗯,我们也用这个来分析下我们的数据。在拖延症大法已经拖无可拖以后,我终于开始研究如何对10x genomics的数据进行分析。
查资料
先去Velocyto官网(http://velocyto.org/),发现可以使用velocyto的python和R版本进行分析。在后续深入的阅读发现,一般是使用velocyto的python版本得到.loom文件,再使用velocyto的R版本导入.loom文件结合pagoda2进行分析。
 
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                               
    
官网给出的对10x的数据分析比较重要的两个网站为:
- https://velocyto.org/velocyto.py/,这个网站是Python的教程,给出了非常详细的步骤和例子
 
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                               - http://pklab.med.harvard.edu/velocyto/notebooks/R/SCG71.nb.html 这个网站是得到了loom文件以后,如何使用RNA velocyto.R和pagoda2 (https://github.com/hms-dbmi/pagoda2 给出了如何安装pagoda2)进行分析,得到最后的分析结果
 
                                              
                                             
                                            
                                           
                                          
                                         
                                        
                                       
                                      
                                     
                                    
                                   
                                  
                                 
                                
                               获得 loom文件
那么如何从跑完10x的CellRanger得到loom文件呢?
其实,很简单,只需要1行命令:
velocyto run10x -mrepeat_msk.gtf mypath/sample01somepath/refdata-cellranger-mm10-1.2.0/genes/genes.gtf
但是,里面有一些坑,
- Repeat_msk.gft 需要从UCSA网站下载得到:hg38_rmsk.gtf;
- mypath/sample01 ,习惯了使用Seurat分析,我下意识的使用了filtered_gene_bc_matrices中的文件夹(只包含barcodes.tsv.gz, features.tsv.gz, matrix.mtx.gz),但是仔细阅读以后发现,此处的文件夹是cell ranger运行以后的得到的样本文件夹; velocyto includes a shortcut to run the counting directlyon one or more cellranger output folders (e.g. this is the folder containing thesubfolder: outs, outs/analys and outs/filtered_gene_bc_matrices)
- 在你的outs文件夹,有一个文件名是possorted_genome_bam.bam,这是进行分析的基础,包含了splicing 相关的信息。我一直很好奇,10x的数据的矩阵如何进行RNA velocity分析,看到这个文件后我就明白了。这里需要注意的是,有的时候,这个文件会被重命名为样本名_possorted_genome_bam.bam,这里需要使用mv进行改名possorted_genome_bam.bam
- 另一个可能会发生错误的是你的cellranger的gtf文件,一定要和你的cellranger的结果的版本相匹配;
- 还需要注意的是,这个分析是依赖于samtools 1.6版本以上,由于我是在实验室的服务器上,我需要load:


 
                        