Bioconductor 入门指南：从安装到实践，开启生物信息学数据分析之旅

生物信息学是利用计算机和统计学方法来分析生物数据（如基因组序列、基因表达、蛋白质结构等）的交叉学科。随着高通量测序等技术的发展，产生的生物数据量呈指数级增长，对数据分析工具提出了巨大挑战。在这种背景下，Bioconductor 应运而生，并逐渐成为生物信息学领域不可或缺的工具。

Bioconductor 是一个开源项目，致力于为基因组数据分析提供高质量、可互操作、文档齐全的软件包。它主要基于 R 语言，但也与其他语言和工具集成。Bioconductor 提供了处理和分析各类高通量生物数据的强大功能，涵盖了从原始数据处理、质量控制、比对、特征计数到差异表达分析、变异检测、通路分析、可视化等几乎所有的生物信息学分析流程。

对于希望进入生物信息学领域或需要处理生物数据的 R 用户来说，掌握 Bioconductor 是一个重要的里程碑。本文将作为一份详尽的入门指南，带领你一步步了解 Bioconductor，从安装开始，深入其核心概念，并提供一个基础的实践示例，帮助你踏上生物信息学数据分析的旅程。

1. Bioconductor 是什么？为什么选择它？

1.1 什么是 Bioconductor？

简单来说，Bioconductor 是一个庞大的 R 软件包集合，专门用于分析基因组学和其他高通量生物学数据。它不仅仅是简单的软件包仓库，更是一个项目，拥有严格的软件包开发、测试和维护标准。

核心特点：

基于 R 语言： 利用 R 强大的统计计算和可视化能力。
专注于生物数据： 提供专门为生物数据设计的类和方法。
高质量和可靠性： 软件包经过严格的代码审查、测试和定期维护。
良好的文档： 每个软件包都有详细的手册页（manuals）和详细的说明文档（vignettes），通常包含使用示例和背景知识。
可互操作性： 软件包之间设计得易于协同工作，数据结构可以方便地在不同包之间传递。
活跃的社区： 提供支持论坛、邮件列表等，方便用户交流和解决问题。

1.2 为什么选择 Bioconductor？

在生物信息学领域，存在多种工具和平台。选择 Bioconductor 的原因包括：

功能全面： 涵盖了从基础数据处理到高级分析的广泛任务。
研究前沿： 许多最新的生物信息学方法和算法首先在 Bioconductor 中实现和发布。
可重复性： 结构化的数据对象和明确的函数接口有助于构建可重复的分析流程。vignettes 提供了详细的分析案例，可以直接学习和修改。
灵活性： 作为 R 包，你可以轻松地将 Bioconductor 的功能与其他 R 包（包括非生物信息学相关的）结合使用，进行定制化分析。
成本效益： Bioconductor 是开源且免费的。

如果你需要处理高通量测序数据（如 RNA-Seq, ChIP-Seq, scRNA-Seq）、基因组变异数据、流式细胞术数据、蛋白质组学数据等，Bioconductor 无疑是你的有力助手。

2. 入门前的准备

在开始安装 Bioconductor 之前，你需要确保已经具备以下条件：

安装 R 语言： Bioconductor 软件包运行在 R 环境中。请确保你的 R 版本是最新或较新的稳定版本。你可以从 CRAN (The Comprehensive R Archive Network) 下载并安装适合你操作系统的 R。
安装 RStudio (强烈推荐)： RStudio 是一个功能强大的 R 集成开发环境 (IDE)，它极大地提升了 R 的使用体验，包括代码编辑、控制台、文件管理、绘图查看、帮助文档查阅等。对于使用 Bioconductor 进行复杂的分析，RStudio 的项目管理和调试功能尤为有用。你可以从 RStudio 官网下载安装。
基础的 R 语言知识： 你应该熟悉 R 的基本语法、数据类型（向量、矩阵、数据框、列表）、函数调用、安装和加载普通 R 包等。
稳定的互联网连接： 安装 Bioconductor 软件包需要从网络下载。

3. 安装 Bioconductor

Bioconductor 的安装方式与普通的 R 包略有不同。由于 Bioconductor 包之间存在复杂的依赖关系，并且 Bioconductor 项目有特定的版本发布周期（与 R 的发布周期同步），它推荐使用自己的包管理器 BiocManager 来进行安装和管理。

3.1 安装 `BiocManager`

首先，你需要像安装普通 R 包一样安装 BiocManager 包：

“`r

打开 R 或 RStudio

安装 BiocManager 包

install.packages(“BiocManager”)
“`

如果你的 R 环境设置正确，并且网络连接正常，BiocManager 包应该很快就能安装完成。

3.2 使用 `BiocManager` 安装 Bioconductor 核心包

安装了 BiocManager 后，就可以使用它来安装 Bioconductor 的核心软件包。核心包是 Bioconductor 项目中最基础和最常用的软件包集合。

“`r

加载 BiocManager 包

library(BiocManager)

安装 Bioconductor 的推荐核心包

BiocManager::install()
“`

运行 BiocManager::install() 命令会检查你的 R 版本与当前 Bioconductor 发布的版本是否兼容，并安装与该 Bioconductor 版本相对应的核心软件包及其依赖项。这个过程可能需要一些时间，具体取决于你的网络速度和需要安装的包数量。

重要提示：

BiocManager 会根据你的 R 版本自动选择兼容的 Bioconductor 版本。通常，每个 Bioconductor 版本都对应一个或两个 R 版本。如果你的 R 版本太旧，BiocManager 可能会提示你更新 R。
不要尝试使用 install.packages() 直接从 CRAN 安装 Bioconductor 包，这可能会导致版本冲突和依赖问题。始终使用 BiocManager::install() 来安装 Bioconductor 包。

3.3 安装特定的 Bioconductor 软件包

Bioconductor 包含了数千个软件包，涵盖了各种特定的分析任务（如 RNA-Seq 差异表达分析有 edgeR 和 DESeq2，基因组范围操作有 GenomicRanges 等）。通常你只需要安装你实际需要的包。

要安装一个或多个特定的 Bioconductor 包，将包名作为参数传递给 BiocManager::install()：

“`r

安装 Bioconductor 中用于 RNA-Seq 差异表达分析的 edgeR 包

BiocManager::install(“edgeR”)

同时安装多个包

BiocManager::install(c(“DESeq2”, “GenomicRanges”, “SummarizedExperiment”))
“`

BiocManager 会负责解决这些包的所有依赖关系，并确保安装的包版本与当前 Bioconductor 版本兼容。

3.4 检查和更新 Bioconductor 软件包

BiocManager 还可以用来检查和更新你的 Bioconductor 软件包：

“`r

检查已安装的 Bioconductor 包是否有可用更新

BiocManager::valid()

更新所有需要更新的 Bioconductor 包

BiocManager::install() # 再次运行此命令通常会检查并安装更新

“`

BiocManager::valid() 函数会检查你的环境，看是否所有已安装的包都来自同一个 Bioconductor 版本，并且是否是最新版本。它会告诉你哪些包需要更新或有问题。

4. 理解 Bioconductor 的核心概念：数据结构

Bioconductor 的强大之处很大程度上来源于它为生物数据设计了特定的数据结构（类）。这些数据结构不仅存储数据本身，还包含了相关的元数据（metadata），并提供了大量针对这些结构的专门方法，使得数据处理和分析更加高效和方便。

理解这些核心数据结构是掌握 Bioconductor 的关键。以下是一些最重要和最常用的 Bioconductor 数据结构：

4.1 GenomicRanges 和相关的类 (`GenomicRanges` 包)

生物信息学中经常需要处理基因组区域或区间（如基因坐标、峰值区域、变异位点等）。GenomicRanges 包提供了一系列类来表示和操作这些区域。

GRanges (Genomic Ranges): 最常用的类，用于表示一组基因组区域。一个 GRanges 对象包含：
- seqnames: 染色体或序列名称（如 “chr1”, “chrX”, “hg38″）。
- ranges: 区间的起始和结束位置（使用 IRanges 对象存储）。
- strand: 链信息（”+”, “-“, “*”）。
- mcols: 可选的元数据列，存储与每个区域相关的额外信息（如基因名、得分、显著性p值等）。
- seqinfo: 可选的序列信息，如染色体长度、基因组版本等。
GRangesList: 用于存储一组 GRanges 对象，通常用于表示具有复杂结构的区域集合（如剪接体异构体）。

为什么使用 GRanges 而不是数据框？

GRanges 提供了一系列专门为基因组区域设计的操作，例如：

查找重叠 (findOverlaps): 快速找出两个 GRanges 对象中的哪些区域相互重叠。
合并区域 (reduce, disjoin): 合并或分割重叠的区域。
计算区域长度 (width): 获取每个区域的长度。
在区域上下游延伸 (resize, flank): 方便地获取区域周围的序列。
基于区域对其他数据进行操作： 许多 Bioconductor 包的方法接受 GRanges 作为输入，以便根据基因组位置对其他数据进行子集、聚合或注释。

示例 (创建和操作 GRanges):

“`r

需要先安装 GenomicRanges 包

BiocManager::install(“GenomicRanges”)

library(GenomicRanges)

创建一个简单的 GRanges 对象

gr <- GRanges(
seqnames = c(“chr1”, “chr1”, “chr2”, “chrX”),
ranges = IRanges(start = c(101, 301, 150, 501),
end = c(200, 450, 200, 600)),
strand = c(“+”, “-“, “+”, “*”),
score = c(10, 15, 20, 25),
name = c(“regionA”, “regionB”, “regionC”, “regionD”)
)

print(gr)

查看元数据列

mcols(gr)

查找重叠 (示例：自己与自己重叠)

overlaps <- findOverlaps(gr, gr)

print(overlaps)

获取区域的长度

width(gr) # [1] 100 150 51 100
“`

4.2 SummarizedExperiment 和 RangedSummarizedExperiment (`SummarizedExperiment` 包)

高通量实验（如 RNA-Seq, ChIP-Seq, 蛋白质组学）通常产生一个矩阵，其中行代表特征（如基因、转录本、蛋白质、区域），列代表样本，矩阵中的值是测量结果（如计数、表达量、丰度）。同时，我们还有关于特征的元数据（如基因长度、注释）和关于样本的元数据（如处理条件、批次信息）。

SummarizedExperiment 和 RangedSummarizedExperiment 类被设计来优雅地存储和管理这种结构化的数据。

SummarizedExperiment: 基础类，包含：
- assays: 一个或多个矩阵（或类似矩阵的对象），存储实验数据（如原始计数、标准化计数）。可以有多个 assay，通过名称访问。
- rowData: 一个 DataFrame 对象，存储关于行（特征）的元数据。行名通常是特征 ID。
- colData: 一个 DataFrame 对象，存储关于列（样本）的元数据。行名通常是样本 ID。
- metadata: 一个列表，存储关于整个实验的元数据。
RangedSummarizedExperiment: 继承自 SummarizedExperiment，并在 rowData 中特别要求第一列必须是 GRanges 或 GRangesList 对象。这使得我们可以方便地将基因组位置信息与实验数据关联起来。这对于基于基因组区域的数据（如 RNA-Seq 读段计数到基因、ChIP-Seq 峰值计数）非常有用。

为什么使用 SummarizedExperiment 而不是三个独立的数据框/矩阵？

数据整合： 将所有相关数据（实验值、特征信息、样本信息）存储在一个对象中，避免了在多个对象之间来回查找和同步的麻烦。
简化操作： 许多 Bioconductor 包提供直接作用于 SummarizedExperiment 对象的方法，例如子集操作（按样本或按特征）、数据转换、标准化等，这些操作会自动保持 rowData 和 colData 的一致性。
强制一致性： SummarizedExperiment 结构强制要求 assays 的行名与 rowData 的行名匹配，列名与 colData 的行名匹配，确保数据不会错位。

示例 (创建和操作 SummarizedExperiment):

“`r

需要先安装 SummarizedExperiment 包

BiocManager::install(“SummarizedExperiment”)

library(SummarizedExperiment)
library(GenomicRanges) # RangedSummarizedExperiment 需要 GRanges

示例数据

counts <- matrix(runif(100*6, 1, 100), nrow=100, ncol=6)
colnames(counts) <- paste0(“sample”, 1:6)
rownames(counts) <- paste0(“gene”, 1:100)

样本元数据

sample_info <- data.frame(
condition = factor(rep(c(“A”, “B”), each = 3)),
batch = factor(rep(c(“batch1”, “batch2”), 3)),
row.names = colnames(counts) # 确保行名与 counts 的列名匹配
)

特征元数据 (对于 SummarizedExperiment 可以是普通 DataFrame)

gene_info <- data.frame(
gene_length = sample(500:5000, 100),
gene_type = sample(c(“protein_coding”, “lncRNA”), 100, replace = TRUE),
row.names = rownames(counts) # 确保行名与 counts 的行名匹配
)

创建 SummarizedExperiment 对象

se <- SummarizedExperiment(
assays = list(counts = counts), # 可以有多个 assays, 如 list(counts=…, norm_counts=…)
rowData = gene_info,
colData = sample_info
)

print(se)

访问数据和元数据

assays(se)$counts # 访问 counts 矩阵
rowData(se) # 访问特征元数据
colData(se) # 访问样本元数据

子集操作 (选择前5个基因和样本1, 3, 5)

se_subset <- se[1:5, c(“sample1”, “sample3”, “sample5”)]
print(se_subset)

如果特征有基因组位置，可以创建 RangedSummarizedExperiment

示例：创建基因的 GRanges

gene_granges <- GRanges(
seqnames = sample(c(“chr1”, “chr2”), 100, replace=TRUE),
ranges = IRanges(start = sample(1:100000, 100), width = gene_info$gene_length),
strand = sample(c(“+”, “-“), 100, replace=TRUE),
gene_type = gene_info$gene_type, # 可以将部分 gene_info 放入 mcols
row.names = rownames(counts) # 确保行名匹配
)

创建 RangedSummarizedExperiment 对象

rse <- RangedSummarizedExperiment(
assays = list(counts = counts),
rowRanges = gene_granges, # 使用 rowRanges 参数传入 GRanges
colData = sample_info
)

print(rse)
rowRanges(rse) # 访问基因组区域信息
“`

4.3 其他重要数据结构 (简介)

Bioconductor 还有许多其他重要的数据结构，针对特定的数据类型或分析需求：

DGEList (edgeR 包): 专门用于 RNA-Seq 或 tag-based 计数数据的类。它包含计数矩阵、样本信息（文库大小、分组等）和可选的基因信息。edgeR 包的大多数函数都接受 DGEList 对象作为输入。
DESeqDataSet (DESeq2 包): 类似于 DGEList，也是用于 RNA-Seq 计数数据的类。它继承自 SummarizedExperiment，额外增加了对差异表达分析中 size factors 和 dispersion 估计的支持。DESeq2 包的核心函数接受 DESeqDataSet 对象。
ExpressionSet (Biobase 包): 一个较旧但仍然广泛使用的数据结构，类似于 SummarizedExperiment，也用于存储表达矩阵、特征信息和样本信息。许多遗留包可能仍然使用 ExpressionSet。
TreeSummarizedExperiment (TreeSummarizedExperiment 包): 扩展了 SummarizedExperiment，用于处理具有树状结构的数据，如单细胞数据与细胞谱系树、微生物组数据与物种进化树等。

熟悉这些核心数据结构是有效使用 Bioconductor 包的基础，因为大多数包的输入和输出都是这些特定类的对象。

5. 如何查找和探索 Bioconductor 软件包？

Bioconductor 的软件包数量庞大，找到解决特定分析问题的包是使用 Bioconductor 的重要一步。

5.1 Bioconductor 官方网站

Bioconductor 官网 (https://www.bioconductor.org/) 是查找软件包和获取信息的主要途径。

Packages 页面: 在网站导航栏找到 “Packages”。你可以按关键词搜索包，按生物体（如 Human, Mouse, Rat）、按类型（Software, Annotation, Experiment）进行过滤。每个包都有一个专门的页面，提供：
- 包的简要描述。
- 指向手册页和 vignettes 的链接。
- 安装命令 (BiocManager::install("package_name"))。
- 依赖关系。
- 开发者信息。
Vignettes 页面: “Packages” 页面中的 “Vignettes” 部分是一个宝库。Vignettes 是详细的文档，通常包含使用示例和分析流程，比手册页更具指导性。学习一个新包的最佳方式之一就是阅读其 vignettes。
Workflows 页面: 提供了针对特定分析任务的端到端流程，例如 RNA-Seq 分析流程、单细胞分析流程等。这些 workflows 通常会整合多个 Bioconductor 包，是学习如何组合使用不同包的绝佳资源。

5.2 在 R/RStudio 中查找

你也可以在 R 环境中使用 BiocManager 或其他函数查找可用或已安装的 Bioconductor 包。

BiocManager::available(): 可以用来搜索 Bioconductor 仓库中可用的包。

“`r

列出所有可用的 Bioconductor 软件包 (非常多!)

BiocManager::available()

搜索包含特定关键词的包 (例如 “RNA-Seq”)

available_packages <- BiocManager::available()
rna_seq_packages <- available_packages[grep(“RNA-Seq|rna-seq|rnaseq”, available_packages, ignore.case = TRUE)]
print(rna_seq_packages) # 注意：这只是包名，需要进一步查看描述
“`
help.search() 或 ?: 如果你知道某个函数或概念，但不知道它属于哪个包，可以使用 R 的帮助搜索功能。虽然不是 Bioconductor 特有的，但它很有用。

“`r

搜索关于 “差异表达” 的帮助主题

help.search(“differential expression”)

“`

5.3 查阅包的文档 (手册页和 Vignettes)

一旦你找到了一个潜在的包，深入了解它的功能和用法至关重要。

手册页 (?): 每个函数、数据集或类都有一个手册页。在 R 控制台输入 ?function_name 或 ?ClassName 可以查看详细说明、参数解释、返回值和通常的代码示例。

“`r

查看 edgeR 包中 DGEList 类的帮助文档

?DGEList

查看 edgeR 包中 filterByExpr 函数的帮助文档

?filterByExpr

“`
Vignettes (browseVignettes): Vignettes 提供了更完整的教程和工作流程。强烈建议阅读它们。

“`r

列出 edgeR 包的所有 vignettes

browseVignettes(“edgeR”)

这会打开一个浏览器窗口，列出 edgeR 包的所有 vignettes，点击链接即可阅读。

“`

6. 一个简单的 Bioconductor 实践示例 (RNA-Seq 数据预处理)

为了将上述概念联系起来，我们来看一个使用 Bioconductor 包 edgeR 进行 RNA-Seq 计数数据基本预处理的简单示例。这个示例将展示如何加载数据到 Bioconductor 的特定数据结构 (DGEList)，并进行一些初步的过滤和标准化。

示例目标：

加载一个示例计数矩阵和样本信息。
创建 edgeR 的 DGEList 对象。
根据表达量过滤低丰度的基因。
计算文库大小和标准化因子。

步骤：

安装并加载 edgeR 包：

“`r

如果没有安装，先安装

BiocManager::install(“edgeR”)

加载 edgeR 包

library(edgeR)
“`
准备示例数据： 我们使用 edgeR 包自带的示例数据。

“`r

edgeR 包包含一个名为 “y” 的 DGEList 示例对象

这个对象通常代表一些RNA-Seq计数数据

data(y)
print(y)
“`

y 是一个 DGEList 对象。可以看到它包含了 Counts (计数矩阵)、samples (样本信息，包含文库大小 lib.size 和分组 group) 以及 genes (基因信息，这里是基因长度 Length)。

在实际分析中，你的数据通常是一个计数矩阵文件 (如 CSV 或 TSV)，和一个样本信息文件。你需要自己加载这些数据并创建 DGEList 对象。

实际数据加载示例 (假设你有 counts.csv 和 samples.csv):

“`r

# 假设你的计数文件是 counts.csv (行是基因，列是样本，第一列是基因ID)

counts_matrix <- read.csv(“counts.csv”, row.names = 1)

# 假设你的样本信息文件是 samples.csv (行是样本，列是元数据，第一列是样本ID)

sample_info_df <- read.csv(“samples.csv”, row.names = 1)

# 确保 counts_matrix 的列名与 sample_info_df 的行名顺序一致

# 如果不一致，需要重新排序：counts_matrix <- counts_matrix[, rownames(sample_info_df)]

# 创建 DGEList 对象

y_real <- DGEList(counts = counts_matrix, samples = sample_info_df)

print(y_real)

`` **注：** 为了文章的流畅性和使用自带示例，我们继续使用内置的y` 对象。
过滤低丰度基因： 许多基因在大部分或所有样本中表达量都非常低，甚至为零。这些基因通常不会在不同条件下有显著差异表达，而且包含较多噪声。过滤掉这些基因可以减少后续计算量，并提高统计检验的功效。edgeR 提供了 filterByExpr 函数，可以根据实验设计自动确定合适的过滤阈值。

“`r

查看过滤前的基因数量

nrow(y) # [1] 1000

根据样本分组信息 (y$samples$group) 过滤低丰度基因

keep <- filterByExpr(y, group = y$samples$group)
y_filtered <- y[keep, , keep.lib.sizes = FALSE] # 对 DGEList 对象进行子集操作

查看过滤后的基因数量

nrow(y_filtered) # 例如 [1] 789 (具体数字取决于数据和阈值)

print(y_filtered)
`` 注意keep.lib.sizes = FALSE` 参数，过滤行（基因）时通常不需要重新计算文库大小，因为文库大小是基于原始计数的列总和。
计算标准化因子： 样本之间可能存在测序深度（文库大小）差异。简单的原始计数比较会受到文库大小的影响。我们需要进行标准化。edgeR 默认使用 TMM (Trimmed Mean of M-values) 方法进行标准化。标准化因子反映了每个样本相对于参考样本的系统性偏差。

“`r

计算标准化因子 (TMM)

y_normalized <- calcNormFactors(y_filtered)

print(y_normalized$samples) # 查看样本信息，可以看到多了一列 norm.factors
``norm.factors列包含了每个样本的标准化因子。edgeR` 在后续的统计模型中会使用这些因子来调整有效文库大小。

至此，我们已经完成了 RNA-Seq 计数数据的基本预处理：加载到 DGEList 对象、过滤低丰度基因和计算标准化因子。下一步通常是计算有效文库大小、构建实验设计矩阵、拟合统计模型并进行差异表达分析。但这些超出了“入门”的范围，这个示例旨在展示 Bioconductor 数据结构的使用和基本分析步骤。

7. 进一步学习和获取帮助

掌握 Bioconductor 需要时间和实践。以下是一些重要的资源和建议，帮助你继续深入学习：

Bioconductor 官方网站 (https://www.bioconductor.org/): 永远是第一站。查找包、阅读 vignettes 和 workflows。
包的手册页 (?) 和 vignettes (browseVignettes()): 学习特定包的详细信息。
Bioconductor Support Site (https://support.bioconductor.org/): 这是一个活跃的问答论坛。在提问前，先搜索一下你的问题是否已经被解答过。提问时，请提供清晰的问题描述、你尝试过的代码、遇到的错误信息以及你的 R 和 Bioconductor 版本信息 (sessionInfo())。
R 和 Bioconductor 的书籍和课程： 有许多优秀的在线课程（如 Coursera, edX 的生物信息学课程通常会涉及 R 和 Bioconductor）和书籍专门介绍使用 R 和 Bioconductor 进行生物数据分析。
学习工作流程 (Workflows): Bioconductor 的 workflows 页面提供了针对常见分析任务的详细教程，这是学习如何整合使用多个包的绝佳方式。
动手实践： 最好的学习方法是自己动手分析真实或模拟的数据集。尝试复现 vignette 中的例子，然后将方法应用到你自己的数据上。

8. 总结

Bioconductor 是一个强大、灵活且不断发展的生物信息学数据分析平台。通过基于 R 语言、提供高质量软件包和专门的数据结构，它极大地简化了高通量生物数据的处理和分析过程。

本文从 Bioconductor 的基本概念和重要性讲起，详细介绍了使用 BiocManager 进行安装的方法，深入阐述了 GRanges 和 SummarizedExperiment 等核心数据结构的设计理念和用法，指导你如何查找和探索 Bioconductor 的软件包及文档，并通过一个简单的 RNA-Seq 数据预处理示例展示了 Bioconductor 的实际应用。

开始使用 Bioconductor 只是第一步。生物信息学是一个广阔的领域，每种数据类型和分析问题都有其特定的方法和工具。随着你接触更复杂的分析任务，你将需要学习和使用更多特定的 Bioconductor 软件包。但只要掌握了基础的安装、数据结构和文档查阅方法，你就能逐步探索和利用 Bioconductor 庞大的功能库，应对各种生物数据分析挑战。

祝你在 Bioconductor 世界的探索之旅顺利！不断学习、实践和查阅文档，你将能够有效地利用这个强大的工具进行科学研究。

Bioconductor 入门指南：从安装到实践，开启生物信息学数据分析之旅

1. Bioconductor 是什么？为什么选择它？

1.1 什么是 Bioconductor？

1.2 为什么选择 Bioconductor？

2. 入门前的准备

3. 安装 Bioconductor

3.1 安装 BiocManager

打开 R 或 RStudio

安装 BiocManager 包

3.2 使用 BiocManager 安装 Bioconductor 核心包

加载 BiocManager 包

安装 Bioconductor 的推荐核心包

3.3 安装特定的 Bioconductor 软件包

安装 Bioconductor 中用于 RNA-Seq 差异表达分析的 edgeR 包

同时安装多个包

3.4 检查和更新 Bioconductor 软件包

检查已安装的 Bioconductor 包是否有可用更新

更新所有需要更新的 Bioconductor 包

BiocManager::install() # 再次运行此命令通常会检查并安装更新

4. 理解 Bioconductor 的核心概念：数据结构

4.1 GenomicRanges 和相关的类 (GenomicRanges 包)

需要先安装 GenomicRanges 包

BiocManager::install(“GenomicRanges”)

创建一个简单的 GRanges 对象

查看元数据列

查找重叠 (示例：自己与自己重叠)

overlaps <- findOverlaps(gr, gr)

print(overlaps)

获取区域的长度

4.2 SummarizedExperiment 和 RangedSummarizedExperiment (SummarizedExperiment 包)

需要先安装 SummarizedExperiment 包

BiocManager::install(“SummarizedExperiment”)

示例数据

样本元数据

特征元数据 (对于 SummarizedExperiment 可以是普通 DataFrame)

创建 SummarizedExperiment 对象

访问数据和元数据

子集操作 (选择前5个基因和样本1, 3, 5)

如果特征有基因组位置，可以创建 RangedSummarizedExperiment

示例：创建基因的 GRanges

创建 RangedSummarizedExperiment 对象

4.3 其他重要数据结构 (简介)

5. 如何查找和探索 Bioconductor 软件包？

5.1 Bioconductor 官方网站

5.2 在 R/RStudio 中查找

列出所有可用的 Bioconductor 软件包 (非常多!)

BiocManager::available()

搜索包含特定关键词的包 (例如 “RNA-Seq”)

搜索关于 “差异表达” 的帮助主题

help.search(“differential expression”)

5.3 查阅包的文档 (手册页和 Vignettes)

查看 edgeR 包中 DGEList 类的帮助文档

?DGEList

查看 edgeR 包中 filterByExpr 函数的帮助文档

?filterByExpr

列出 edgeR 包的所有 vignettes

这会打开一个浏览器窗口，列出 edgeR 包的所有 vignettes，点击链接即可阅读。

6. 一个简单的 Bioconductor 实践示例 (RNA-Seq 数据预处理)

如果没有安装，先安装

BiocManager::install(“edgeR”)

加载 edgeR 包

edgeR 包包含一个名为 “y” 的 DGEList 示例对象

这个对象通常代表一些RNA-Seq计数数据

# 假设你的计数文件是 counts.csv (行是基因，列是样本，第一列是基因ID)

counts_matrix <- read.csv(“counts.csv”, row.names = 1)

# 假设你的样本信息文件是 samples.csv (行是样本，列是元数据，第一列是样本ID)

sample_info_df <- read.csv(“samples.csv”, row.names = 1)

# 确保 counts_matrix 的列名与 sample_info_df 的行名顺序一致

# 如果不一致，需要重新排序：counts_matrix <- counts_matrix[, rownames(sample_info_df)]

# 创建 DGEList 对象

y_real <- DGEList(counts = counts_matrix, samples = sample_info_df)

print(y_real)

查看过滤前的基因数量

根据样本分组信息 (y$samples$group) 过滤低丰度基因

查看过滤后的基因数量

计算标准化因子 (TMM)