数据分析利器R语言：入门指南

在当今数据爆炸的时代，数据分析已成为各行各业不可或缺的关键技能。无论是商业智能、科学研究、金融风控，还是社交媒体趋势分析，数据都能为决策提供强有力的支持。而作为进行数据分析的工具，编程语言扮演着至关重要的角色。在这众多工具中，R语言凭借其强大的统计分析能力、丰富的数据可视化库以及活跃的社区支持，脱颖而出，成为数据分析领域的明星利器。

如果你是数据分析的初学者，渴望掌握一门功能强大且专为数据而生的语言，那么R语言绝对值得你投入时间去学习。本文将为你提供一份详尽的R语言入门指南，带你一步步踏入R语言的世界，领略其魅力，并掌握进行基础数据分析所需的知识。

引言：为何选择R语言进行数据分析？

在深入学习R语言之前，我们先来了解一下它为何如此受到数据分析师、统计学家和科研人员的青睐：

为数据而生： R语言最初是为统计计算和数据可视化而设计的。它的核心功能和语法都围绕着如何高效、准确地处理和分析数据。这使得R在进行复杂的统计建模、假设检验等方面具有天然的优势。
强大的统计功能： R拥有海量的内置统计函数和算法，几乎涵盖了所有常用的统计方法，从描述性统计到复杂的机器学习模型，应有尽有。
卓越的数据可视化能力： R提供了多种强大的绘图系统，尤其是 ggplot2 包，它基于“图形语法”（Grammar of Graphics）理论，能够创建出精美、专业且高度定制化的数据可视化图表。让你的数据故事通过图表生动地呈现出来。
丰富的生态系统（R包）： R的核心功能通过“包”（Package）的形式进行扩展。目前CRAN（Comprehensive R Archive Network）上已有超过19000个各种功能的包，覆盖了统计学、机器学习、生物信息学、金融、地理信息等几乎所有需要数据分析的领域。这意味着你需要的功能很可能已经有现成的R包可以使用。
开源与免费： R是开源软件，任何人都可以免费使用、修改和分发。这大大降低了学习和使用的门槛，尤其对于学生和个人开发者而言。
活跃的社区支持： R拥有庞大而活跃的全球用户社区。遇到问题时，你可以在各种论坛、邮件列表、Stack Overflow等平台找到帮助，获取资源和学习材料。
跨平台： R可以在Windows、macOS和Linux等多种操作系统上运行。

正是这些特性，使得R语言成为数据分析领域的强大工具。接下来，我们将开始R语言的入门之旅。

第一章：踏上R的征途——安装与环境配置

学习任何编程语言的第一步都是搭建开发环境。对于R语言，你需要安装R本身以及一个集成开发环境（IDE）。推荐使用功能强大且用户友好的RStudio。

1. 安装R：

访问R官方网站（https://cran.r-project.org/），根据你的操作系统选择对应的下载链接进行下载和安装。安装过程通常是双击下载的安装包，然后按照提示一步步完成即可。选择默认设置通常是安全的。

2. 安装RStudio：

RStudio是一个为R语言量身定制的免费、开源的集成开发环境。它提供了代码编辑器、控制台、变量查看器、图形显示区、帮助文档等一系列工具，极大地提高了R语言的开发效率。

访问RStudio官方网站（https://www.rstudio.com/products/rstudio/download/），选择免费的RStudio Desktop版本进行下载。同样，下载后双击安装包，按照提示完成安装。

3. 熟悉RStudio界面：

安装并打开RStudio后，你会看到一个通常被分成四个窗格的界面：

左上角 (Source Editor): 代码编辑器。你将在这里编写R脚本（.R 文件）。可以一次性写多行代码，然后选择性地执行或全部运行。
左下角 (Console): 控制台。这是R的命令行界面。你可以直接在这里输入R代码并立即执行。执行脚本编辑器中的代码时，结果也会显示在这里。
右上角 (Environment, History, etc.): 环境窗口（Environment）显示当前会话中已创建的所有变量、函数等对象。历史窗口（History）记录了你在控制台中执行过的命令。
右下角 (Files, Plots, Packages, Help, Viewer): 这个窗格有多个选项卡。
- Files：文件浏览器，方便管理文件和目录。
- Plots：显示生成的图表。
- Packages：显示已安装的R包列表，可以方便地安装、加载和卸载包。
- Help：显示R函数和包的帮助文档。
- Viewer：用于显示本地的网页内容或一些交互式输出。

熟悉RStudio的界面是高效学习和使用R语言的关键。花一些时间摸索各个窗格的功能。

第二章：R语言基础——语法与数据类型

掌握任何编程语言都需要从基础语法开始。R语言的语法相对直观，特别适合进行面向数据的操作。

1. 基本语法：

注释： 使用 # 符号开始的行是注释，R解释器会忽略它们。注释是用来解释代码功能的，非常重要。
R # 这是一个注释 x <- 10 # 变量赋值
赋值： 使用 <- 或 = 符号给变量赋值。推荐使用 <-，它是R社区更常用的风格。变量名可以包含字母、数字和点（.），但不能以数字开头。
R my_variable <- 100 another.var = "hello"
函数调用： 函数是执行特定任务的代码块。调用函数时，函数名后跟圆括号 ()，参数放在括号内。
R print("Hello, R!") # 调用 print 函数 sum(1, 2, 3) # 调用 sum 函数计算总和
执行代码： 在RStudio的Source Editor中，选中要执行的代码行或块，然后按 Ctrl + Enter (Windows/Linux) 或 Cmd + Enter (macOS) 即可在Console中执行。

2. R语言的数据类型：

R语言有几种基本的数据类型：

数值型 (numeric): 包括整数和浮点数。
R integer_var <- 10L # L表示整数 float_var <- 3.14
整型 (integer): 数值型的子类型，专门表示整数。
R my_int <- as.integer(5)
字符型 (character): 用于存储文本字符串，需要用双引号或单引号括起来。
R string_var <- "这是文本" char_var <- 'a'
逻辑型 (logical): 只有两个值： TRUE 和 FALSE (或 T 和 F)，通常用于条件判断。
R is_true <- TRUE is_false <- FALSE
复数型 (complex): 用于存储复数。
R complex_var <- 1 + 2i
原生型 (raw): 用于存储字节数据。

3. R语言的数据结构：

R语言提供了多种强大的数据结构来组织不同类型的数据，其中最常用和最重要的包括：

向量 (Vector): R中最基本的数据结构，用于存储同一种数据类型的一组元素。向量是R语言的基础，很多操作都是基于向量进行的。
“`R
# 创建数值向量
numbers <- c(1, 2, 3, 4, 5) # 使用 c() 函数创建向量

创建字符向量

fruits <- c(“apple”, “banana”, “cherry”)

创建逻辑向量

logicals <- c(TRUE, FALSE, TRUE)

访问向量元素

numbers[1] # 访问第一个元素 (注意：R的索引从1开始)
fruits[c(1, 3)] # 访问第一个和第三个元素
numbers[numbers > 3] # 访问大于3的元素
* **列表 (List):** 可以存储**不同**数据类型的对象集合。列表中的每个元素都可以是一个向量、另一个列表、一个函数，甚至是一个数据框。R
my_list <- list(name = “Alice”, age = 30, scores = c(85, 90, 78))

访问列表元素

my_list$name # 通过名称访问
my_list[[2]] # 通过索引访问 (返回元素本身)
my_list[1] # 通过索引访问 (返回包含元素的子列表)
* **矩阵 (Matrix):** 二维的矩形数据集，所有元素必须是**同一种**数据类型。有行和列。R

创建矩阵

my_matrix <- matrix(c(1, 2, 3, 4, 5, 6), nrow = 2, ncol = 3)

结果:

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

访问矩阵元素

my_matrix[1, 2] # 访问第一行第二列的元素
my_matrix[, 1] # 访问第一列的所有元素 (返回一个向量)
my_matrix[1, ] # 访问第一行的所有元素 (返回一个向量)
* **数组 (Array):** 矩阵的泛化，可以拥有多个维度，所有元素也必须是**同一种**数据类型。 * **数据框 (Data Frame):** R中最重要、最常用的数据结构，特别适用于存储表格数据（如Excel表格或数据库表）。数据框可以看作是一个特殊的列表，其中每个元素都是一个向量，且这些向量的长度都相等，构成数据的列。不同列可以包含不同类型的数据（数值、字符、逻辑等）。R

创建数据框

students <- data.frame(
ID = c(101, 102, 103),
Name = c(“Alice”, “Bob”, “Charlie”),
Score = c(85, 92, 78),
Is_Enrolled = c(TRUE, TRUE, FALSE)
)

结果:

ID Name Score Is_Enrolled

1 101 Alice 85 TRUE

2 102 Bob 92 TRUE

3 103 Charlie 78 FALSE

访问数据框元素

students$Name # 访问 Name 列 (返回一个向量)
students[, “Score”] # 访问 Score 列 (同上)
students[1, 2] # 访问第一行第二列的元素
students[c(1, 3), ] # 访问第一行和第三行的所有数据
students[students$Score > 80, ] # 访问 Score 大于 80 的行
* **因子 (Factor):** 用于存储分类数据（如性别、城市、学历等）。因子可以是有序或无序的。在统计建模中，因子非常重要。R

创建因子

gender <- factor(c(“Male”, “Female”, “Male”, “Female”, “Male”))

结果: [1] Male Female Male Female Male Levels: Female Male

创建有序因子

education <- factor(c(“High School”, “Bachelor”, “Master”),
levels = c(“High School”, “Bachelor”, “Master”),
ordered = TRUE)
“`

掌握这些基本的数据类型和数据结构是使用R进行数据分析的基础。数据框尤其重要，因为它对应着我们最常处理的表格数据形式。

第三章：数据之魂——导入、清洗与准备

真实世界的数据很少是规整、干净的，通常需要进行导入、清洗和预处理才能用于分析。R提供了强大的工具来完成这些任务。

1. 数据导入：

R可以轻松导入各种格式的数据文件。

CSV 文件： 最常用的数据格式之一，逗号分隔值。
“`R
# 假设你的 CSV 文件名为 “my_data.csv”，在当前工作目录下
# 如果文件不在当前工作目录，需要提供完整路径
my_data <- read.csv(“my_data.csv”)

readr 包 (推荐，速度更快，更可靠)

install.packages(“readr”) # 如果没安装过，先安装

library(readr)
my_data <- read_csv(“my_data.csv”)
* **Excel 文件：** 需要安装额外的包，如 `readxl`。R

install.packages(“readxl”)

library(readxl)
my_excel_data <- read_excel(“my_excel_file.xlsx”, sheet = “Sheet1”) # 指定工作表名称
`` * **其他格式：** R还有包支持导入SPSS (foreign或haven)、SAS (haven)、STATA (haven)、JSON (jsonlite)、数据库（DBI` 包配合具体数据库驱动）等格式的数据。

2. 数据初步查看与探索：

导入数据后，第一步通常是快速浏览数据框的结构和内容。

head(): 显示数据框的前几行（默认前6行）。
R head(my_data)
tail(): 显示数据框的后几行。
R tail(my_data)
str(): 显示数据框的结构，包括每一列的名称、数据类型和前几个值。这是非常有用的函数。
R str(my_data)
summary(): 提供数据框的统计摘要。对于数值列，它会计算最小值、四分位数、中位数、均值和最大值；对于因子列，它会显示各水平的频数。
R summary(my_data)
dim(): 显示数据框的维度（行数和列数）。
R dim(my_data) # 输出: [1] 行数列数
colnames() 或 names(): 显示数据框的列名。
R colnames(my_data)
nrow() 或 ncol(): 分别显示行数和列数。

3. 数据清洗与预处理（使用 dplyr 包）：

数据清洗和转换是数据分析中最耗时的步骤之一。dplyr 包（属于 tidyverse 系列包）提供了一套直观且高性能的函数，使得数据操作变得简单高效。强烈推荐学习和使用 dplyr。

“`R

install.packages(“dplyr”)

library(dplyr)
“`

dplyr 的核心函数（通常被称为“verb”）：

select(): 选择（保留）数据框中的列。
“`R
# 选择 Name 和 Score 列
selected_data <- select(students, Name, Score)

选择除 ID 外的所有列

selected_data <- select(students, -ID)
* `filter()`: 过滤（保留）数据框中的行，基于指定的条件。R

过滤出 Score 大于 80 的学生

high_score_students <- filter(students, Score > 80)

过滤出 Score 大于 80 且 Is_Enrolled 为 TRUE 的学生

active_high_score_students <- filter(students, Score > 80, Is_Enrolled == TRUE)

或者使用 & 符号

active_high_score_students <- filter(students, Score > 80 & Is_Enrolled == TRUE)
* `mutate()`: 创建新的列或修改现有列。R

创建一个新列 Status，根据 Score 是否大于 90

students_with_status <- mutate(students, Status = if_else(Score > 90, “Excellent”, “Good”))

修改 Score 列，将所有分数加 5

students_modified_score <- mutate(students, Score = Score + 5)
* `arrange()`: 按指定的列对数据框进行排序。R

按 Score 升序排序

students_sorted <- arrange(students, Score)

按 Score 降序排序

students_sorted_desc <- arrange(students, desc(Score))
`` *summarize()(或summarise()): 对数据框进行汇总计算，通常与group_by()一起使用。 *group_by()`: 按一个或多个列对数据框进行分组。这是进行分组汇总分析的关键。

配合管道操作符 %>%：

dplyr 通常与管道操作符 %>% (来自 magrittr 包，dplyr 会自动加载) 一起使用。管道操作符的含义是将左侧对象的输出作为右侧函数的第一个参数。这使得代码链式调用，可读性大大提高。

“`R

示例：筛选出分数高于80的学生，然后按分数降序排序，并只选择 Name 和 Score 两列

processed_students <- students %>%
filter(Score > 80) %>%
arrange(desc(Score)) %>%
select(Name, Score)
`` 这种链式操作是tidyverse` 风格数据处理的核心，非常强大和流行。

处理缺失值 (NA – Not Available):

真实数据中经常会遇到缺失值。

is.na(): 检查值是否为缺失值，返回逻辑值向量。
R is.na(my_data$Score)
na.omit(): 删除包含缺失值的所有行。
R data_no_na <- na.omit(my_data)
complete.cases(): 返回一个逻辑向量，指示哪些行不包含缺失值。
R data_complete_rows <- my_data[complete.cases(my_data), ]
mutate() 结合 replace_na() (来自 tidyr 包) 或 ifelse() 来填充缺失值（如用均值、中位数或特定值）。
“`R
# install.packages(“tidyr”)
library(tidyr)

用均值填充 Score 列的缺失值

mean_score <- mean(my_data$Score, na.rm = TRUE) # 计算均值时忽略NA
my_data_filled <- my_data %>%
mutate(Score = replace_na(Score, mean_score))
“`

数据清洗和准备涉及的技术远不止这些，但 dplyr 和 tidyr 提供了强大的基础。

第四章：让数据说话——基础数据可视化

“一张图胜过千言万语”，数据可视化是数据分析中不可或缺的一环。R拥有世界领先的数据可视化工具，尤其是 ggplot2 包。

“`R

install.packages(“ggplot2”)

library(ggplot2)
“`

ggplot2 基于“图形语法”理论，你可以通过组合不同的组件（数据、映射、几何对象、统计变换、坐标系、分面等）来构建图形。

1. 基本绘图框架：

创建一个 ggplot 对象通常是绘图的第一步：
R ggplot(data = your_data, aes(x = column_x, y = column_y))
* data: 指定要使用的数据框。
* aes() (aesthetics): 指定数据列如何映射到图形的视觉属性上（如x轴、y轴、颜色、大小、形状等）。

2. 添加几何对象 (Geoms)：

几何对象是图中实际显示的图形元素（点、线、柱、箱线图等）。通过 + 符号将几何对象添加到 ggplot 对象上。

散点图 (Scatter Plot): 用于展示两个数值变量之间的关系。
R ggplot(data = students, aes(x = Score, y = ID)) + geom_point() # 添加点几何对象
直方图 (Histogram): 用于展示单个数值变量的分布。
R ggplot(data = students, aes(x = Score)) + geom_histogram(binwidth = 5, fill = "blue", color = "black") # 添加直方图，设置分组宽度和颜色
柱状图 (Bar Plot): 用于展示分类变量的计数或数值。
“`R
# 展示每个学生的 Score (如果 x 是分类变量，y 是数值变量)
ggplot(data = students, aes(x = Name, y = Score)) +
geom_bar(stat = “identity”, fill = “skyblue”) # stat=”identity” 表示y值直接来源于数据

展示分类变量 (如 Gender) 的频数 (如果只指定 x)

假设我们有一个包含 Gender 列的数据框 user_data

ggplot(data = user_data, aes(x = Gender)) +

geom_bar() # 默认 stat=”count”，计算频数

* **箱线图 (Box Plot):** 用于展示数值变量按分类变量分组后的分布，包括中位数、四分位数、异常值等。R

假设你的数据框包含一个分组列 Category 和一个数值列 Value

ggplot(data = your_data, aes(x = Category, y = Value)) +

geom_boxplot()

“`

3. 添加标签和标题：

使用 labs() 函数添加图表的标题、轴标签、图例标题等。

R ggplot(data = students, aes(x = Score, y = ID)) + geom_point() + labs(title = "学生ID与分数的散点图", x = "分数", y = "学生ID")

4. 分面 (Faceting):

使用 facet_wrap() 或 facet_grid() 将图表按一个或多个分类变量分成多个子图。

“`R

假设你的数据包含一个 Category 列

ggplot(data = your_data, aes(x = Value)) +

geom_histogram() +

facet_wrap(~ Category) # 按 Category 列分面

“`

ggplot2 的功能非常强大，这只是冰山一角。通过组合不同的几何对象、调整美学映射、使用统计变换、修改坐标系和主题，你可以创建出几乎任何你想要的统计图形。学习 ggplot2 的关键在于理解图形语法和不断实践。

第五章：探索数据的奥秘——基础统计分析

R语言作为统计领域的基石，进行各种统计分析是它的强项。

1. 描述性统计：

计算数据的集中趋势、离散程度等。我们前面已经介绍了 summary() 函数，它提供了便捷的描述性统计信息。

你也可以使用单独的函数：
R mean(students$Score) # 计算均值 median(students$Score) # 计算中位数 sd(students$Score) # 计算标准差 var(students$Score) # 计算方差 min(students$Score) # 计算最小值 max(students$Score) # 计算最大值 range(students$Score) # 计算范围 (最小值和最大值) quantile(students$Score) # 计算四分位数
注意：这些函数通常需要处理缺失值，可以使用 na.rm = TRUE 参数忽略缺失值。
R mean(my_data$Score, na.rm = TRUE)

2. 频率统计：

对于分类变量或离散变量，计算各类别出现的频数。

table(): 计算向量中唯一值的频数。
R table(students$Is_Enrolled) # 结果示例: # FALSE TRUE # 1 2
prop.table(): 将 table() 的结果转换为比例。
R prop.table(table(students$Is_Enrolled)) # 结果示例: # FALSE TRUE # 0.3333333 0.6666667

3. 假设检验（基础）：

R内置了进行各种假设检验的函数。

t检验 (t-test): 比较两个样本均值是否有显著差异。
“`R
# 假设我们有两个组的销售数据 sales_group_a 和 sales_group_b
# t.test(sales_group_a, sales_group_b) # 独立双样本 t 检验

假设数据在一个数据框 df 中，包含 Value 和 Group 列

t.test(Value ~ Group, data = df) # 使用公式表示法

* **相关性分析 (Correlation Analysis):** 检验两个数值变量之间的线性关系强度和方向。R
cor(students$ID, students$Score) # 计算皮尔逊相关系数
cor.test(students$ID, students$Score) # 进行相关性检验
* **线性回归 (Linear Regression):** 建立一个或多个自变量与因变量之间的线性关系模型。R

建立一个简单的线性回归模型: Score 随 ID 变化

model <- lm(Score ~ ID, data = students)

查看模型摘要

summary(model)

summary() 输出包含模型的系数、P值、R方等重要信息，用于评估模型的拟合度和变量的显著性。

“`

这仅仅是R统计能力的一瞥。随着你对R和统计学的深入学习，你可以使用R进行方差分析(ANOVA)、卡方检验(Chi-squared Test)、各种回归分析（逻辑回归、多元回归等）、时间序列分析、生存分析等高级统计方法。

第六章：力量源泉——R包生态系统

前面已经多次提到R包的重要性。R的强大功能很大程度上依赖于其庞大且不断增长的包生态系统。

1. 什么是R包？

R包是R函数、数据、编译代码和文档的集合，以标准格式打包。安装一个包后，你就可以使用其中定义的函数和数据集。

2. 安装和加载R包：

安装包： 使用 install.packages() 函数从CRAN或其他仓库安装包。只需要安装一次（除非你想更新）。
R install.packages("dplyr") install.packages("ggplot2") install.packages(c("readr", "readxl")) # 同时安装多个包
安装包时，RStudio可能会询问你选择一个镜像（CRAN mirror），选择一个离你地理位置近的即可。
加载包： 在每次新的R会话中，你需要使用 library() 或 require() 函数来加载已安装的包，才能使用其中的函数。
R library(dplyr) library(ggplot2)
通常，在R脚本的开头列出你需要加载的所有包是一个好习惯。

3. 常用的数据分析R包推荐 (除了 dplyr, ggplot2, readr, readxl):

tidyr: 另一个 tidyverse 核心包，用于数据整理（如将宽格式数据转换为长格式，或反之）。
purrr: tidyverse 的一部分，用于函数式编程，更优雅地处理列表和向量。
stringr: tidyverse 的一部分，提供了一致且直观的字符串操作函数。
forcats: tidyverse 的一部分，用于处理因子变量。
lubridate: 用于简化日期和时间数据的处理。
caret: 提供了统一的接口来训练和评估各种机器学习模型。
Shiny: 用于构建交互式Web应用程序，让你的分析结果可以通过网页分享。
rmarkdown: 用于创建动态文档、报告、演示文稿和网站，将代码、结果和文字结合在一起。

探索和学习新的R包是提升R语言能力和数据分析效率的重要途径。当你遇到一个特定任务（如处理地理空间数据、进行自然语言处理、构建神经网络等）时，首先应该搜索是否有现成的R包可以利用。

第七章：更进一步——R语言学习资源推荐

入门只是开始，R语言的世界广阔而深入。持续学习和实践是掌握它的关键。以下是一些推荐的学习资源：

R官方文档和帮助：
- 当你遇到一个函数不知道怎么用时，在RStudio的Console中输入 ?函数名 或 help(函数名)，即可查看帮助文档。例如 ?read.csv 或 ?geom_point。
- RSeek.org：一个专门搜索R相关内容的搜索引擎。
在线教程和课程：
- R for Data Science (R4DS): Hadley Wickham 等人合著的免费在线书籍，强烈推荐！它专注于使用 tidyverse 进行数据科学，是现代R数据分析的权威指南。（网址：https://r4ds.had.co.nz/，也有中文翻译版本）
- Coursera, edX, DataCamp, Udacity 等平台提供大量R语言和数据科学的课程，适合系统学习。DataCamp和Codecademy提供交互式编程练习。
- B站、YouTube等视频平台有许多R语言教学视频。
书籍： 除了 R4DS，还有《R语言实战》、《数据科学：R语言实现》等经典书籍。
社区和论坛：
- Stack Overflow (标签 [r]): 遇到编程问题时，这里通常能找到答案。提问时请提供可重现的示例（reproducible example）。
- RStudio Community: 官方社区论坛，可以提问和讨论。
- R-Ladies Global: 面向女性R用户的社区，组织聚会和提供资源。
- 各种本地的R用户组（R-Users Group）或数据科学社群。
博客和网站： 很多R用户和开发者会分享他们的代码和分析经验。关注一些知名的R博主和数据科学网站。

学习是一个持续的过程，不要害怕犯错。多动手实践，尝试用R解决实际问题，参与社区讨论，你的R语言技能会不断提升。

结论

恭喜你！通过阅读本文，你已经对R语言作为数据分析工具的优势、基本的安装与环境配置、核心语法与数据结构、常用的数据导入清洗方法、基础的数据可视化以及统计分析有了初步的了解。你还知道了强大的R包生态系统以及未来学习的方向和资源。

R语言不仅是一种编程语言，它更是一个充满活力的数据分析平台。掌握R语言，你将能够高效地处理、探索、可视化数据，并运用丰富的统计模型进行深度分析，从而从数据中挖掘价值，做出更明智的决策。

入门只是第一步，数据分析的旅程充满挑战但也充满乐趣。勇敢地开始你的R语言实践吧！加载第一个包，编写第一行代码，绘制第一个图表，进行第一次统计分析。在实践中不断学习和进步，R语言必将成为你在数据世界中乘风破浪的得力助手。

祝你在R语言的学习之路上一切顺利！

数据分析利器R语言：入门指南

引言：为何选择R语言进行数据分析？

第一章：踏上R的征途——安装与环境配置

第二章：R语言基础——语法与数据类型

创建字符向量

创建逻辑向量

访问向量元素

访问列表元素

创建矩阵

结果:

[,1] [,2] [,3]

[1,] 1 3 5

[2,] 2 4 6

访问矩阵元素

创建数据框

结果:

ID Name Score Is_Enrolled

1 101 Alice 85 TRUE

2 102 Bob 92 TRUE

3 103 Charlie 78 FALSE

访问数据框元素

创建因子

结果: [1] Male Female Male Female Male Levels: Female Male

创建有序因子

第三章：数据之魂——导入、清洗与准备

readr 包 (推荐，速度更快，更可靠)

install.packages(“readr”) # 如果没安装过，先安装

install.packages(“readxl”)

install.packages(“dplyr”)

选择除 ID 外的所有列

过滤出 Score 大于 80 的学生

过滤出 Score 大于 80 且 Is_Enrolled 为 TRUE 的学生

或者使用 & 符号

创建一个新列 Status，根据 Score 是否大于 90

修改 Score 列，将所有分数加 5

按 Score 升序排序

按 Score 降序排序

示例：筛选出分数高于80的学生，然后按分数降序排序，并只选择 Name 和 Score 两列

用均值填充 Score 列的缺失值

第四章：让数据说话——基础数据可视化

install.packages(“ggplot2”)

展示分类变量 (如 Gender) 的频数 (如果只指定 x)

假设我们有一个包含 Gender 列的数据框 user_data

ggplot(data = user_data, aes(x = Gender)) +

geom_bar() # 默认 stat=”count”，计算频数

假设你的数据框包含一个分组列 Category 和一个数值列 Value

ggplot(data = your_data, aes(x = Category, y = Value)) +

geom_boxplot()

假设你的数据包含一个 Category 列

ggplot(data = your_data, aes(x = Value)) +

geom_histogram() +

facet_wrap(~ Category) # 按 Category 列分面

第五章：探索数据的奥秘——基础统计分析

假设数据在一个数据框 df 中，包含 Value 和 Group 列

t.test(Value ~ Group, data = df) # 使用公式表示法

建立一个简单的线性回归模型: Score 随 ID 变化

查看模型摘要

summary() 输出包含模型的系数、P值、R方等重要信息，用于评估模型的拟合度和变量的显著性。

第六章：力量源泉——R包生态系统

第七章：更进一步——R语言学习资源推荐

结论