跳转至

Bioconductor 中的 R 包安装方法总结

Bioconductor 是一个基于 R 语言的生物信息软件包,主要用于生物数据的注释、分析、统计、以及可视化 (http://www.bioconductor.org )。

总所周知,Bioconductor 是和 R 版本绑定的,这是为了确保用户不把包安装在错误的版本上。Bioconductor 发行版每年更新两次,它在任何时候都有一个发行版本(release version),对应于 R 的发行版本。此外,Bioconductor 还有一个开发版本(development version),它对应于 R 的开发版本。

R 每年(通常是 4 月中旬)在 ‘x.y.z’ 中发布一个 ‘.y’ 版本,但 Bioconductor 每 6 个月(4 月中旬和 10 月中旬)发布一个 ‘.y’ 版本。

Bioconductor 与 R 各自对应的版本如下:(参考:Bioconductor releases

biocLite 使用

在 R-3.5(Bioconductor-3.7) 前,Bioconductor 都是通过 biocLite 安装相关的 R 包:

source("https://bioconductor.org/biocLite.R")
biocLite(pkg_name)

但是,从 R-3.5(Bioconductor-3.8)起,Bioconductor 更改了 R 包的安装方式:它们通过发布在 CRAN 的 [BiocManager](https://cran.r-project.org/web/packages/BiocManager/index.html) 包来对 Bioconductor 的包进行安装和管理——通过 CRAN 安装 BiocManager,再通过这个包来安装 Bioconductor 的包。

BiocManager 安装与使用

1. 镜像,镜像,镜像!

重要的事情说三遍!很多安装  CRAN 和 Bioconductor 包的童鞋都会发现自己的包下载不完整,以至于出现各种神奇的报错!所以国内的用户推荐参考下面的用法,设置国内镜像,改善包下载速度慢的问题。

  • Bioconductor 镜像

Bioconductor 镜像源配置文件之一是  .Rprofile (Linux 下位于  ~/.Rprofile )。 在文末添加如下语句:

options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

打开 R 即可使用该 Bioconductor 镜像源安装 Bioconductor 软件包。

  • CRAN 镜像与 R 包安装

R 在线安装包,设置全局镜像(选择中国的镜像),加快安装进度,可以参考以下方法:

#设置清华大学镜像
local({
    r <- getOption("repos")
    r["CRAN"] <- "http://mirrors.tuna.tsinghua.edu.cn/CRAN/"
    options(repos=r)
})

#然后在安装需要的包
install.packages("ggplot2")

或者直接在安装方法中指定 repos,指定国内的镜像地址,安装会快很多:

install.packages("ggplot2",repos="http://mirrors.tuna.tsinghua.edu.cn/CRAN/")

2. 安装 BiocManager 包

chooseCRANmirror()                           # 选择 CRAN 的镜像
install.packages("BiocManager")  # 安装 BiocManager 包

3. 安装 Bioconductor 的 R 包

BiocManager::install(c("GenomicRanges", "Organism.dplyr"))

4. 查看 Bioconductor 的版本

BiocManager::version()
## '3.8'

5. 更新所有已经安装的 R 包

BiocManager::install()  # 更新到最新版本

6. 旧和意外版本的 R 包

当 Bioconductor 的包都来自同一版本时,它们的效果最佳。 使用 valid() 来查看过期(out-of-date)或意外版本(unexpected versions)的 R 包。

BiocManager::valid()

## Warning: 21 packages out-of-date; 2 packages too new
##
## * sessionInfo()
##
## R Under development (unstable) (2018-11-02 r75540)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 18.04.1 LTS
##
## Matrix products: default
## BLAS: /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.7.1
## LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.7.1
##
## locale:
##  [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C
##  [3] LC_TIME=en_US.UTF-8        LC_COLLATE=C
##  [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8
##  [7] LC_PAPER=en_US.UTF-8       LC_NAME=C
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C
## [11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
##
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base
##
## other attached packages:
## [1] BiocStyle_2.11.0
##
## loaded via a namespace (and not attached):
##  [1] Rcpp_1.0.0         bookdown_0.7       digest_0.6.18
##  [4] rprojroot_1.3-2    backports_1.1.2    magrittr_1.5
##  [7] evaluate_0.12      stringi_1.2.4      rmarkdown_1.10
## [10] tools_3.6.0        stringr_1.3.1      xfun_0.4
## [13] yaml_2.2.0         compiler_3.6.0     BiocManager_1.30.4
## [16] htmltools_0.3.6    knitr_1.20
##
## Bioconductor version '3.9'
##
##   * 21 packages out-of-date
##   * 2 packages too new
##
## create a valid installation with
##
##   BiocManager::install(c(
##     "BiocManager", "GenomicDataCommons", "GenomicRanges", "IRanges",
##     "RJSONIO", "RcppArmadillo", "S4Vectors", "TCGAbiolinks", "TCGAutils",
##     "TMB", "biocViews", "biomaRt", "bumphunter", "curatedMetagenomicData",
##     "dimRed", "dplyr", "flowCore", "ggpubr", "ggtree", "lme4", "rcmdcheck",
##     "shinyFiles", "tximportData"
##   ), update = TRUE, ask = FALSE)
##
## more details: BiocManager::valid()$too_new, BiocManager::valid()$out_of_date

valid() 返回一个对象,可以查询该对象以获取有关无效包的详细信息:

> v <- valid()
Warning message:
6 packages out-of-date; 0 packages too new
> names(v)
[1] "out_of_date" "too_new"
> head(v$out_of_date, 2)
    Package LibPath
bit "bit"   "/home/shenweiyan/R/x86_64-pc-linux-gnu-library/3.5-Bioc-3.8"
ff  "ff"    "/home/shenweiyan/R/x86_64-pc-linux-gnu-library/3.5-Bioc-3.8"
    Installed Built   ReposVer Repository
bit "1.1-12"  "3.5.0" "1.1-13" "https://cran.rstudio.com/src/contrib"
ff  "2.2-13"  "3.5.0" "2.2-14" "https://cran.rstudio.com/src/contrib"
>

7. 适用的 R 包

可以使用 available() 发现适用于我们的 Bioconductor 版本的软件包;第一个参数是可用于根据正则表达式过滤包名称,例如,可用于 Homo sapiens 的 ‘BSgenome’ 包:

avail <- BiocManager::available()
length(avail)
## [1] 16261

BiocManager::available("BSgenome.Hsapiens")
##  [1] "BSgenome.Hsapiens.1000genomes.hs37d5"
##  [2] "BSgenome.Hsapiens.NCBI.GRCh38"
##  [3] "BSgenome.Hsapiens.UCSC.hg17"
##  [4] "BSgenome.Hsapiens.UCSC.hg17.masked"
##  [5] "BSgenome.Hsapiens.UCSC.hg18"
##  [6] "BSgenome.Hsapiens.UCSC.hg18.masked"
##  [7] "BSgenome.Hsapiens.UCSC.hg19"
##  [8] "BSgenome.Hsapiens.UCSC.hg19.masked"
##  [9] "BSgenome.Hsapiens.UCSC.hg38"
## [10] "BSgenome.Hsapiens.UCSC.hg38.masked"

安装旧版本的 Bioconductor R 包

image.png

R≥3.5,Bioconductor≥3.7

可以使用 BiocManager 安装相关与版本匹配的 R 包。或者通过源码的方式安装旧版本 R 包。

R<3.5,Bioconductor<3.7

那么使用 3.5 以下 R 版本的用户是继续使用 biocLite,还是 BiocManager,还是其他的方法安装匹配相关版本的 R 包呢?

**首先,**对于 R < 3.5.0,如果  biocLite 或者 BiocManager 可以安装,则优先使用  biocLite 或者 BiocManager 去安装。

**其次,**对于 R < 3.5.0,  如果 biocLite 和 BiocManager 都无法安装对应版本的 R 包,可以参考下面的方法。

> source("https://bioconductor.org/biocLite.R")
Bioconductor version 3.6 (BiocInstaller 1.28.0), ?biocLite for help
A new version of Bioconductor is available after installing the most recent
  version of R; see http://bioconductor.org/install
> biocLite("clusterProfile")
......

Warning message:
package clusterProfile is not available (for R version 3.4.3)

> chooseCRANmirror()
> install.packages("BiocManager")
Warning message:
package BiocManager is not available (for R version 3.4.3)
>

这时候,Bioconductor 推荐使用以下命令安装相应的 R 包。

source("https://bioconductor.org/biocLite.R")
BiocInstaller::biocLite(c("GenomicFeatures", "AnnotationDbi"))

安装新版本的 Bioconductor R 包

Bioconductor 是与特定版本的 R 绑定的,正常来说当 Bioconductor 的包都来自同一版本时,它们的效果最佳。

Bioconductor versions are associated with specific R versions, as summarized here. Attempting to install a version of Bioconductor that is not supported by the version of R in use leads to an error; using the most recent version of Bioconductor may require installing a new version of R.

From:https://cran.r-project.org/web/packages/BiocManager/vignettes/BiocManager.html

所以,当有些 R 包是基于高版本的 Bioconductor 开发的,在低版本的 Bioconductor/R 中直接执行 BiocManager::install("package"),安装得到的 package 版本默认是与当前版本 Bioconductor/R 相匹配的,而并非是最新的版本。 image.pngDiffBind 包为例,DiffBind==3.4.0 是基于 Bioconductor==3.14(对应 R-4.1)开发的;我们在 Bioconductor==3.13(对应 R-4.0)中执行 BiocManager::install("DiffBind"),默认安装的是 DiffBind==3.0.15image.png

1. 源码方式安装

如果想要在 Bioconductor==3.13(对应 R-4.0)中安装 DiffBind==3.4.0,可以直接通过源码包的方式安装:

> packageurl <- "http://bioconductor.org/packages/release/bioc/src/contrib/DiffBind_3.4.0.tar.gz"
> install.packages(packageurl, repos=NULL, type="source")

2. BiocInstaller 安装

下面,我们以在 R-3.4(Bioconductor==3.6)中安装最新版本的 clusterProfiler 为例。

在 Aanconda2 环境 R==3.4.3 中安装 clusterProfiler,发现 package ‘clusterProfile’ is not available (for R version 3.4.3)

> source("https://bioconductor.org/biocLite.R")
Bioconductor version 3.6 (BiocInstaller 1.28.0), ?biocLite for help
A new version of Bioconductor is available after installing the most recent
  version of R; see http://bioconductor.org/install
> biocLite("clusterProfile")
BioC_mirror: https://bioconductor.org
Using Bioconductor 3.6 (BiocInstaller 1.28.0), R 3.4.3 (2017-11-30).
Installing package(s) clusterProfileOld packages: 'ade4', 'ape', 'backports', 'caret', ......

Update all/some/none? [a/s/n]: n
Warning message:
package clusterProfile is not available (for R version 3.4.3)

使用 BiocInstaller 安装 clusterProfiler:

> source("https://bioconductor.org/biocLite.R")
Bioconductor version 3.6 (BiocInstaller 1.28.0), ?biocLite for help
A new version of Bioconductor is available after installing the most recent
  version of R; see http://bioconductor.org/install

> BiocInstaller::biocLite("clusterProfiler")
BioC_mirror: https://bioconductor.org
Using Bioconductor 3.6 (BiocInstaller 1.28.0), R 3.4.3 (2017-11-30).
Installing package(s) clusterProfilertrying URL 'https://bioconductor.org/packages/3.6/bioc/src/contrib/clusterProfiler_3.6.0.tar.gz'
Content type 'application/x-gzip' length 4478098 bytes (4.3 MB)
==================================================
downloaded 4.3 MB

* installing *source* package clusterProfiler ...
** R
** data
** inst
** byte-compile and prepare package for lazy loading
** help
*** installing help indices
** building package indices
** installing vignettes
** testing if installed package can be loaded
* DONE (clusterProfiler)

> packageVersion('clusterProfiler')
[1] 3.6.0

install.packages 一站式方案

用 install.packages 来安装 CRAN 和 Bioconductor 所有的包!这是来自于 Y 叔 2018-09-25 在公众号发表的《不用 biocLite 安装 Bioconductor 包》介绍的方法。这里截取部分内容介绍一下。

用 install.packages 来安装 CRAN 和 Bioconductor 所有的包,你要做的很简单,在 \~/.Rprofile  里加入以下两行内容。

options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
utils::setRepositories(ind=1:2)

第一行,使用国内的镜像,我这里用的是清华大学的,第二行,设定  install.packages  从 CRAN 和 Bioconductor 中搜索包,其实你还可以让它支持比如 R-Forge 以及各种第三方的仓库。

然后你就可以愉快地使用  install.packages 来安装 Bioconductor 包了。

安装体积比较大的 R 包

安装 CRAN 或者 Bioconductor 中一些体积比较大的 R 包,如果网络不太好,经常可能会出现包下载不完(Timeout of 60 seconds was reached),从而导致无法正常安装。 image.png 参考 How do i set a timeout for utils::download.file() in R - Stack Overflow,增加 timeout 时长的同时使用国内的镜像进行加速:

getOption('timeout')
# [1] 60

options(timeout=100)

image.png

以上,就是  Bioconductor R 包安装和使用的全部内容,希望对大家有所帮助。

参考资料

  1. omicsgene,《R 语言包安装方法,设置国内镜像加快安装速度》,OmicsClass  组学大讲堂问答社区
  2. Y 叔叔,《不用 biocLite 安装 Bioconductor 包》,”biobable”公众号