R语言基础教程:软件安装与初步了解 – wiki基地


R 语言基础教程:软件安装与初步了解

引言

在数据科学、统计分析、机器学习以及生物信息学等众多领域,R 语言已经成为了一种不可或缺的强大工具。它不仅拥有丰富的统计分析函数库,更具备令人惊艳的数据可视化能力。对于初学者而言,迈出 R 语言学习的第一步,就是正确地安装软件并对开发环境有一个初步的了解。本文将手把手带你完成 R 及其集成开发环境(IDE)RStudio 的安装过程,并引导你进行一些基础的探索,为你的 R 语言学习之旅打下坚实的基础。

第一部分:R 语言及其生态系统概览

在开始安装之前,让我们先简要了解一下 R 语言是什么,以及为什么它如此受欢迎。

1.1 什么是 R 语言?

R 是一种用于统计计算和图形的编程语言和软件环境。它起源于 S 语言,是一种自由、免费、开源的软件。R 语言的强大之处在于其庞大且持续增长的包(Package)生态系统,这些包提供了各种各样用于数据处理、统计建模、机器学习算法、可视化以及报告生成的功能。

1.2 R 语言的优势

  • 开源免费: R 是完全免费的,你可以自由地使用、修改和分发它。这降低了学习和使用的门槛。
  • 强大的统计能力: R 由统计学家开发,内置了丰富的统计函数和模型,是进行复杂统计分析的理想选择。
  • 卓越的可视化: R 拥有多个功能强大的图形库(如 ggplot2),能够创建高质量、高度定制化的数据图表。
  • 活跃的社区: R 拥有庞大的用户社区,当你遇到问题时,很容易在网上找到帮助和资源。
  • 丰富的包生态: 通过安装各种包,R 的功能可以无限扩展,几乎涵盖了数据科学的方方面面。
  • 跨平台: R 可以在 Windows、macOS 和 Linux 等多种操作系统上运行。

1.3 R 与 RStudio 的关系

需要明确的是,R 语言本身是一个“引擎”或“解释器”,你可以在最基础的命令行界面中使用它。然而,对于大多数用户来说,直接使用这个基础界面效率较低。RStudio 是一个为 R 语言量身定制的集成开发环境(IDE)。它提供了一个更加友好的图形用户界面,集成了代码编辑器、控制台、变量查看器、文件管理器、图形显示区等多个窗口,极大地提高了 R 语言的开发效率和体验。

因此,标准的安装流程是:先安装 R 语言本体,再安装 RStudio。

第二部分:R 语言的安装

R 语言本体可以从 CRAN(Comprehensive R Archive Network,综合 R 档案网络)下载。CRAN 是一个由全球各地的镜像站点组成的网络,提供了 R 软件本身及其大量包的源代码、二进制文件和文档。

2.1 访问 CRAN 官网

打开你的网络浏览器,访问 CRAN 的官方网站:https://cran.r-project.org/

进入网站后,你会看到一个链接列表,通常是:
* Download R for Linux (下载 Linux 版 R)
* Download R for macOS (下载 macOS 版 R)
* Download R for Windows (下载 Windows 版 R)

根据你当前使用的操作系统,点击相应的链接。

2.2 选择操作系统并下载

接下来,我们将分别介绍在 Windows、macOS 和 Linux 系统上的下载和安装步骤。

2.2.1 Windows 系统安装

  1. 点击 “Download R for Windows”。
  2. 进入 Windows 版 R 的下载页面,你会看到三个主要链接:
    • base:这是首次安装 R 所需要下载的基础系统。
    • contrib:这里是为 Windows 预编译的 R 包,通常不需要手动下载,而是通过 R 或 RStudio 内部的命令安装。
    • Rtools:这是一套用于构建 R 包或编译需要外部软件的包的工具集,对于初学者来说通常不需要立即安装。
  3. 点击 base 链接。
  4. 进入 base 页面,你会看到类似 “Download R 4.x.x for Windows” 的链接(其中 4.x.x 是当前最新的版本号)。点击这个链接开始下载 R 的安装程序(通常是一个 .exe 文件)。
  5. 等待下载完成。

Windows 安装步骤:

  1. 找到下载好的 .exe 安装文件,双击运行。
  2. 选择安装语言,通常选择“简体中文”或“English”,点击“确定”。
  3. 进入安装向导,点击“下一步”。
  4. 阅读许可协议,点击“下一步”。
  5. 选择安装路径。默认路径通常是 C:\Program Files\R\R-x.y.z (x.y.z 是版本号),建议保持默认,除非你有特殊需求。确保安装路径不包含中文字符或特殊符号,这可以避免一些潜在问题。点击“下一步”。
  6. 选择组件。默认选项通常包括“Core files”、“32-bit Files”、“64-bit Files”、“Message translations”等。如果你使用的是 64 位操作系统(目前绝大多数电脑都是),可以只勾选“64-bit Files”和“Core files”、“Message translations”,取消勾选“32-bit Files”以节省空间,但这并非强制,保留默认勾选所有组件也无妨。点击“下一步”。
  7. 选择启动选项。默认选项通常是“Yes (accept defaults)”,这意味着安装程序会根据你的系统自动配置启动选项,推荐保持默认。如果你想自定义(例如,选择 MDI 或 SDI 界面),可以选择“No (customize startup)”,但对于初学者来说,默认即可。点击“下一步”。
  8. 选择是否创建快捷方式。通常勾选“在桌面创建快捷方式”和“在快速启动栏创建快捷方式”(如果适用),并选择是否关联 .RData 文件。默认勾选即可。点击“下一步”。
  9. 程序开始安装,等待进度条完成。
  10. 安装完成后,点击“完成”。

至此,R 语言本体在 Windows 系统上就安装好了。你可以在开始菜单找到 R 的启动图标(通常有两个,一个 32 位,一个 64 位,选择与你系统位数匹配的那个启动,例如 R x64 4.x.x)。

2.2.2 macOS 系统安装

  1. 点击 “Download R for macOS”。
  2. 进入 macOS 版 R 的下载页面,你会看到一些链接:
    • 一个链接是针对最新 macOS 版本的 R 安装包(例如,”R-4.x.x.pkg for macOS 11 (Big Sur) and later”)。
    • 可能还有针对旧版本 macOS 的链接。
    • 一个名为 R-Framework.pkg 的链接 (通常包含在主安装包中)。
    • 一个名为 R.pkg 的链接 (图形界面,通常包含在主安装包中)。
  3. 下载与你当前 macOS 版本兼容的最新 R 安装包(通常是那个最大的 .pkg 文件)。

macOS 安装步骤:

  1. 找到下载好的 .pkg 安装文件,双击运行。
  2. 进入安装程序。点击“继续”。
  3. 阅读软件许可协议,点击“继续”,在弹出的对话框中点击“同意”。
  4. 选择安装位置。通常默认安装在系统的 /Library/Frameworks/R.framework 目录下,推荐保持默认。点击“继续”。
  5. 确认安装类型和大小,点击“安装”。
  6. 系统可能会要求你输入管理员密码,输入后点击“安装软件”。
  7. 等待安装完成。安装成功后,你会看到“安装成功”的提示。点击“关闭”。你可以选择保留或移走安装包文件。

至此,R 语言本体在 macOS 系统上就安装好了。你可以在“应用程序”文件夹中找到一个名为“R”的应用程序图标,双击即可启动 R 的图形界面。

2.2.3 Linux 系统安装

Linux 系统安装 R 通常推荐使用系统的包管理器,这样可以更方便地管理 R 的更新和依赖项。不同的 Linux 发行版使用不同的包管理器。

对于基于 Debian/Ubuntu 的系统 (使用 apt):

  1. 打开终端。
  2. 更新包列表:
    bash
    sudo apt-get update
  3. 安装 R 的基础包:
    bash
    sudo apt-get install r-base
  4. 根据提示输入你的用户密码,并确认安装(输入 Y 或是)。
  5. 等待安装完成。

对于基于 Fedora/CentOS/RHEL 的系统 (使用 yum/dnf):

  1. 打开终端。
  2. 安装 R 的基础包:
    bash
    sudo dnf install R # 对于 Fedora 22+ 或 CentOS/RHEL 8+
    # 或
    sudo yum install R # 对于 CentOS/RHEL 7
  3. 根据提示输入你的用户密码,并确认安装。
  4. 等待安装完成。

注意: 不同版本的 Linux 发行版可能需要添加额外的软件仓库(repository)才能安装最新版本的 R。你可以访问 CRAN 网站的 Linux 部分查找针对你的具体发行版和版本的详细安装说明。例如,对于 Ubuntu,CRAN 提供了额外的仓库地址和添加方法。

Linux 安装验证: 安装完成后,打开终端,输入 R 命令并按回车。如果 R 成功安装,你将进入 R 的命令行交互环境,看到 R 的版本信息和提示符 >。输入 q() 可以退出 R 环境。

2.3 验证 R 是否安装成功

无论使用哪种操作系统,安装完成后,你可以尝试启动 R 来验证安装是否成功。

  • Windows: 在开始菜单找到 R 的快捷方式(例如 R x64 4.x.x),点击启动。会打开一个命令行窗口或一个简单的图形窗口,显示 R 的版本信息和帮助信息。
  • macOS: 在“应用程序”文件夹找到“R”图标,双击启动。会打开 R 的 GUI 界面,显示版本信息。
  • Linux: 打开终端,输入 R 并回车。

如果能看到 R 的版本信息和命令提示符(通常是 >),说明 R 语言本体已经成功安装。

第三部分:RStudio 的安装

安装完 R 语言本体后,强烈建议安装 RStudio 这个强大的 IDE。

3.1 访问 RStudio 官网

打开你的网络浏览器,访问 RStudio 的官方网站:https://www.rstudio.com/

3.2 下载 RStudio Desktop 版本

  1. 在 RStudio 网站上,找到 “Products” 或 “Download” 相关的链接。通常在首页或菜单栏。
  2. 点击进入下载页面。你会看到 RStudio 提供的各种产品,包括桌面版和服务器版。
  3. 找到 “RStudio Desktop” 部分。RStudio Desktop 有免费的 “Open Source Edition” 和付费的商业版。对于学习和个人使用,免费的 “Open Source Edition” 已经足够强大。
  4. 点击 “Download RStudio Desktop”。
  5. 进入下载页面后,RStudio 通常会自动检测你的操作系统并推荐合适的下载文件。如果没有,你可以手动选择对应的操作系统版本 (Windows, macOS, Ubuntu, Fedora)。
  6. 点击下载按钮,下载 RStudio Desktop 安装程序。

3.3 安装 RStudio Desktop

下载完成后,根据你的操作系统执行以下安装步骤:

3.3.1 Windows 系统安装

  1. 找到下载好的 RStudio 安装程序(通常是一个 .exe 文件),双击运行。
  2. 选择安装语言,通常选择“简体中文”或“English”,点击“确定”。
  3. 进入安装向导,点击“下一步”。
  4. 选择安装位置。默认路径通常是 C:\Program Files\RStudio,建议保持默认。确保安装路径不包含中文字符或特殊符号。点击“下一步”。
  5. 选择开始菜单文件夹,默认即可。点击“安装”。
  6. 等待安装完成。
  7. 安装完成后,点击“完成”。

3.3.2 macOS 系统安装

  1. 找到下载好的 RStudio 安装程序(通常是一个 .dmg 文件),双击打开。
  2. 会打开一个 Finder 窗口,其中包含 RStudio 应用程序图标和一个指向“Applications”文件夹的快捷方式。
  3. 将 RStudio 应用程序图标拖动到“Applications”文件夹中。
  4. 等待文件复制完成。
  5. 复制完成后,你可以关闭这个 Finder 窗口并卸载 .dmg 文件(将它拖动到垃圾桶)。

3.3.3 Linux 系统安装

根据你下载的包类型和 Linux 发行版,使用相应的包管理器命令进行安装。

  • 对于基于 Debian/Ubuntu 的系统 (下载了 .deb 文件):
    1. 打开终端。
    2. 切换到下载文件所在的目录。
    3. 使用 dpkg 安装包:
      bash
      sudo dpkg -i rstudio-x.x.xxx-amd64.deb # 将文件名替换为你下载的实际文件名
    4. 如果在安装过程中出现依赖项错误,可以使用以下命令修复:
      bash
      sudo apt-get install -f
  • 对于基于 Fedora/CentOS/RHEL 的系统 (下载了 .rpm 文件):
    1. 打开终端。
    2. 切换到下载文件所在的目录。
    3. 使用 rpmdnf 安装包:
      bash
      sudo rpm -i rstudio-x.x.xxx-x86_64.rpm # 将文件名替换为你下载的实际文件名
      # 或使用 dnf (推荐)
      sudo dnf install rstudio-x.x.xxx-x86_64.rpm # 将文件名替换为你下载的实际文件名
    4. 根据提示完成安装。

3.4 启动 RStudio 并验证安装

安装完成后,尝试启动 RStudio。

  • Windows: 在开始菜单找到 RStudio 的快捷方式,点击启动。
  • macOS: 在“应用程序”文件夹找到 RStudio 图标,双击启动。第一次启动可能会弹出安全警告,点击“打开”允许运行。
  • Linux: 在应用程序菜单中找到 RStudio 图标并点击启动,或者在终端输入 rstudio 命令并回车。

如果 RStudio 成功启动,你会看到 RStudio 的主界面。通常在控制台(Console)窗口会显示 R 的版本信息,这说明 RStudio 成功找到了你之前安装的 R 语言本体。

如果 RStudio 提示找不到 R 或无法启动,通常是因为你没有先安装 R 语言本体,或者 R 的安装路径没有被 RStudio 正确识别。 在 RStudio 的全局选项(Global Options)中可以手动指定 R 的安装路径。

第四部分:初步了解 RStudio 界面

成功启动 RStudio 后,你将看到一个通常被分割成四个主要区域的界面。理解这些区域的功能对于高效使用 RStudio 至关重要。

RStudio 的默认布局通常是:

  1. 左上角:Source (源代码/脚本) 窗口

    • 这是你编写、编辑和保存 R 代码脚本的地方。
    • 你可以创建新的 R Script (File -> New File -> R Script)。
    • 你可以在这里输入多行代码,并通过快捷键(Windows/Linux: Ctrl+Enter, macOS: Cmd+Enter)或点击窗口顶部的 “Run” 按钮来执行当前行或选中的代码块。
    • 代码会被保存为 .R 文件。
  2. 左下角:Console (控制台) 窗口

    • 这是 R 语言的交互式命令行界面。
    • 你可以直接在这里输入 R 命令并按回车立即执行。
    • 从 Source 窗口运行的代码,其执行结果(输出、错误、警告等)会显示在这里。
    • 当你在控制台直接输入代码时,它会立即执行,但这些代码不会被保存下来,直到你将它们复制到脚本文件中。
    • 提示符通常是 >
  3. 右上角:Environment, History (环境, 历史) 窗口

    • Environment (环境): 显示当前 R 会话中创建的所有对象(变量、函数、数据集等)。你可以看到每个对象的名称、类型和值(或部分值)。这对于跟踪你创建的变量非常有用。
    • History (历史): 记录你在 Console 中执行过的所有命令历史。你可以选择历史命令并将其发送到 Console 或 Source 窗口。
  4. 右下角:Files, Plots, Packages, Help, Viewer (文件, 图形, 包, 帮助, 查看器) 窗口

    • Files (文件): 一个文件浏览器,用于导航你的文件系统。你可以创建、删除、重命名文件和文件夹。这里通常显示你的当前工作目录(Working Directory)。
    • Plots (图形): 所有使用 R 生成的图表都会显示在这个区域。你可以放大、导出(保存为图片或 PDF)或删除这些图表。
    • Packages (包): 显示你已经安装的 R 包列表。你可以查看已安装的包,加载(勾选旁边的复选框或使用 library() 命令)或卸载包。
    • Help (帮助): 当你使用 ?help() 命令查询某个函数或主题的帮助文档时,帮助文档会显示在这里。
    • Viewer (查看器): 用于显示本地的网页内容或其他交互式输出(例如由 htmlwidgets 包生成的组件)。

你可以通过拖动窗口边缘来调整它们的大小,也可以通过 Pane Layout 选项来自定义 RStudio 的布局 (Tools -> Global Options -> Pane Layout)。

第五部分:你的第一个 R 语言操作

现在,让我们在 RStudio 中尝试一些最基础的操作。

5.1 作为计算器使用

你可以在 Console 窗口直接输入算术表达式并按回车。

r
2 + 3

按回车后,控制台会立即显示结果 [1] 5

r
10 * 5 - (15 / 3)

按回车后,控制台会显示结果 [1] 45

[1] 前缀表示这是一个向量的第一个元素。在 R 中,即使是单个数值也被视为一个长度为 1 的向量。

你也可以在 Source 窗口输入这些代码,然后点击“Run”按钮或使用快捷键执行。代码及其结果会出现在 Console 窗口。

5.2 创建变量

你可以使用赋值符号 <-(通常读作 “gets”)或 = 将值存储到变量中。<- 是 R 社区更推荐的赋值方式,虽然 = 也有效。

在 Source 窗口或 Console 窗口输入并执行以下代码:

r
x <- 10
y = 5
z <- x + y

当你执行这些代码后,你会发现在右上角的 Environment 窗口中出现了变量 x, y, 和 z,并显示了它们的值。

你可以在 Console 中输入变量名来查看它的值:

r
x

按回车,会显示 [1] 10

r
z

按回车,会显示 [1] 15

注意: R 是大小写敏感的。my_variableMy_Variable 是两个不同的变量。变量名不能以数字开头,可以包含字母、数字、下划线 _ 和点 .

5.3 了解基本数据类型

R 有几种基本的数据类型:

  • numeric (数值型): 包括整数和浮点数(双精度浮点型)。这是最常见的数据类型。
    r
    num_var <- 10.5
    int_var <- 20 # R 默认存为 numeric,但可以通过 L 后缀明确指定为 integer: 20L
  • integer (整型): 明确指定的整数。
    r
    int_var_explicit <- 20L
  • character (字符型/字符串): 文本数据,用双引号或单引号括起来。
    r
    char_var <- "Hello, R!"
  • logical (逻辑型): 布尔值,只有 TRUEFALSE (也可以简写为 TF,但不推荐简写)。
    r
    log_var <- TRUE
  • complex (复数型): 包含实部和虚部的数。
    r
    comp_var <- 1 + 2i

你可以使用 class() 函数来检查一个对象的类型:

r
class(num_var)
class(char_var)
class(log_var)

5.4 创建向量 (Vector)

向量是 R 中最基本的数据结构,可以存储同一种数据类型的多个元素。你可以使用 c() 函数(combine 的缩写)来创建向量。

“`r

数值向量

my_numbers <- c(1, 5, 10, -3, 7)

字符向量

my_fruits <- c(“apple”, “banana”, “cherry”, “date”)

逻辑向量

my_logic <- c(TRUE, FALSE, TRUE, TRUE)
“`

向量的索引从 1 开始(与其他一些编程语言不同,例如 Python 的索引从 0 开始)。你可以使用方括号 [] 来访问向量中的元素:

“`r

访问第一个元素

my_numbers[1]

结果: [1] 1

访问第三个元素

my_fruits[3]

结果: [1] “cherry”

访问多个元素 (使用一个包含索引的向量)

my_numbers[c(2, 4, 5)]

结果: [1] 5 -3 7

访问除了某个元素之外的所有元素 (使用负索引)

my_fruits[-2] # 访问除了第二个元素之外的所有元素

结果: [1] “apple” “cherry” “date”

“`

你也可以对整个向量进行算术运算,R 会对向量的每一个元素执行相同的操作(这被称为向量化操作,是 R 的一大优势):

“`r
my_numbers + 5

结果: [1] 6 10 15 2 12

my_numbers * 2

结果: [1] 2 10 20 -6 14

“`

第六部分:获取帮助

当你遇到不认识的函数或概念时,R 提供了强大的内置帮助系统。

  • 如果你知道一个函数的名称,例如 mean() (计算平均值),你可以在 Console 中输入问号 ? 后跟函数名,然后按回车:
    r
    ?mean

    帮助文档就会显示在右下角的 Help 窗口中,详细解释函数的功能、用法、参数、返回值以及示例。
  • 如果你不知道具体的函数名,但知道相关的关键词,可以使用双问号 ??help.search() 来搜索帮助文档:
    r
    ?? "linear model" # 搜索包含 "linear model" 关键词的帮助主题
    help.search("plotting") # 搜索包含 "plotting" 关键词的帮助主题

    搜索结果会显示在 Help 窗口,点击链接即可查看详细帮助。
  • RStudio 的 Help 窗口本身也提供了搜索框,你可以直接在里面输入关键词进行搜索。

第七部分:展望未来

完成了 R 和 RStudio 的安装并进行了初步的探索,你已经成功迈入了 R 语言世界的第一步。这只是一个开始,R 语言还有更广阔的天地等待你去探索,例如:

  • 更多数据结构: 数据框 (Data Frame)、列表 (List)、矩阵 (Matrix)、数组 (Array) 等,特别是数据框,它是处理表格型数据的核心结构。
  • 数据导入与导出: 如何读取 CSV、Excel 文件,如何将数据保存到文件中。
  • 数据清洗和转换: 如何处理缺失值、异常值,如何进行数据筛选、排序、分组、合并等操作(使用 dplyr 等包)。
  • 数据可视化: 使用 ggplot2 包创建各种精美的图表。
  • 统计建模: 进行回归分析、分类、聚类等。
  • 机器学习: 利用 R 中的各种包实现机器学习算法。
  • 报告生成: 使用 R Markdown 生成包含代码、结果和文本的报告。

学习资源:

  • 官方文档和帮助系统: 充分利用 R 的内置帮助。
  • 在线教程和课程: Coursera, edX, DataCamp, Codecademy, Bilibili 等平台有大量 R 语言课程。
  • 书籍: 《R 语言实战》、《利用 R 进行数据分析》、《R 数据科学》等经典书籍。
  • 博客和社区: 关注 R 相关的博客和 Stack Overflow 等问答社区,它们是解决问题和学习技巧的好地方。
  • 包的官方文档 (Vignettes): 许多重要的包都提供了详细的入门文档(Vignettes),可以通过 vignette("package_name") 命令查看。

结论

R 语言和 RStudio 的安装是开启数据分析之旅的第一步。通过本文的详细指导,你应该已经成功搭建了 R 的开发环境,并对 RStudio 的界面和一些基本操作有了初步认识。记住,编程学习是一个循序渐进的过程,最重要的是多动手实践,尝试编写代码,解决实际问题。随着你对 R 语言的深入了解,你将逐渐掌握这个强大工具,并在数据分析和统计建模领域游刃有余。祝你学习顺利!


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部