R语言爬取豆瓣电影 Top 250,并对数据进行处理和可视化的大致流程图如下图所示 首先加载包。 由网站可知豆瓣电影信息包含排名、电影名、评分、评分人数、导演、演员、年份、国家、类型信息,利用RCurl包、rvest包等将其爬取并存放在数据框内,最后将将其保存为Excel文件。 运行结果如下图所示 数据预处理、对数据进行探索性分析 在爬取的数据中,排名为有序型变量,年份,评分人数及评分为连续型变量,电影名称,导演,演员,国家,电影类型为名义型变量。首先进行异常值处理,通过观察发现由于网页内容原因有一个国家的数据以及…

rvest被大量的基于R语言的爬虫用户使用,它简洁的语法可以解决大部分的爬虫问题。 我们在使用library(rvest)命令导入rvest包的时候出现了如下的错误: Error in library(rvest) : 不存在叫‘rvest’这个名字的程辑包的错误 这个错误是因为rvest包不存在,我们只需要安装rvest包即可 安装rvest包方法请阅读全文

已知某研究对象分为三类,每个样品考察4个指标,各类的观测样本数分别为7, 4, 6;另外还有3个待判样品。所有数据见下表。 (1) 试用距离判别法进行判别分析,并对3个待判样品仅仅判别归类。 (2) 试用其他判别法进行判别分析,并对3个待判样品仅仅判别归类,然后比较之。 代码获取请查看全文

R语言 外部资源 以下资源包含有关R语言编程的其他信息。 请使用它们获得有关此主题的更深入的知识。 R语言编程的相关链接 R项目 - 官方R软件和文档。R编程语言 - 维基百科解释R编程语言。R Studio - 强大的R编程IDE。 R上的编程有用的书籍 R语言 相关讨论 R语言是用于统计分析,图形表示和报告的编程语言和软件环境。 R由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R开发核心团队开发。 R在GNU通用公共许可证下免费提供,并为各种…

R语言 平均值,中位数和模式 R中的统计分析通过使用许多内置函数来执行。 这些函数大多数是R基础包的一部分。 这些函数将R向量作为输入和参数,并给出结果。 我们在本章中讨论的功能是平均值,中位数和模式。 Mean平均值 通过求出数据集的和再除以求和数的总量得到平均值 函数mean()用于在R语言中计算平均值。 语法 用于计算R中的平均值的基本语法是 - mean(x, trim = 0, na.rm = FALSE, ...) 以下是所使用的参数的描述 -  x是输入向量。trim用于从排序向量的两端丢弃…

R语言 CSV文件 在R语言中,我们可以从存储在R语言环境外的文件中读取数据。 我们还可以将数据写入将被操作系统存储和访问的文件。 R语言可以读取和写入各种文件格式,如csv,excel,xml等。 在本章中,我们将学习从csv文件读取数据,然后将数据写入csv文件。 该文件应该存在于当前工作目录中,以便R语言可以读取它。 当然我们也可以设置我们自己的目录并从那里读取文件。 获取和设置工作目录 您可以使用getwd()函数检查R语言工作区指向的目录。 您还可以使用setwd()函数设置新的工作目录。 # Get a…

R语言 条形图 条形图表示矩形条中的数据,条的长度与变量的值成比例。 R语言使用函数barplot()创建条形图。 R语言可以在条形图中绘制垂直和水平条。 在条形图中,每个条可以给予不同的颜色。 语法 在R语言中创建条形图的基本语法是 - barplot(H, xlab, ylab, main, names.arg, col) 以下是所使用的参数的描述 -  H是包含在条形图中使用的数值的向量或矩阵。xlab是x轴的标签。ylab是y轴的标签。main是条形图的标题。names.arg是在每个条下出现的名…

数据帧是表或二维阵列状结构,其中每一列包含一个变量的值,并且每一行包含来自每一列的一组值。以下是数据帧的特性。 列名称应为非空。行名称应该是唯一的。存储在数据帧中的数据可以是数字,因子或字符类型。每个列应包含相同数量的数据项。 创建数据帧 # Create the data frame. emp.data <- data.frame( emp_id = c (1:5), emp_name = c("Rick","Dan","Michelle","Ryan","Gary"), salary = c(623.3,…

因子是用于对数据进行分类并将其存储为级别的数据对象。 它们可以存储字符串和整数。 它们在具有有限数量的唯一值的列中很有用。 像“男性”,“女性”和True,False等。它们在统计建模的数据分析中很有用。使用factor()函数通过将向量作为输入创建因子。 例 # Create a vector as input. data <- c("East","West","East","North","North","East","West","West","West","East","North") print(d…

数组是可以在两个以上维度中存储数据的R数据对象。 例如 - 如果我们创建一个维度(2,3,4)的数组,则它创建4个矩形矩阵,每个矩阵具有2行和3列。 数组只能存储数据类型。使用array()函数创建数组。 它使用向量作为输入,并使用dim参数中的值创建数组。 例 以下示例创建一个由两个3x3矩阵组成的数组,每个矩阵具有3行和3列。 # Create two vectors of different lengths. vector1 <- c(5,9,3) vector2 <- c(10,11,12,13…