R语言 CSV文件

在R语言中，我们可以从存储在R语言环境外的文件中读取数据。我们还可以将数据写入将被操作系统存储和访问的文件。 R语言可以读取和写入各种文件格式，如csv，excel，xml等。

在本章中，我们将学习从csv文件读取数据，然后将数据写入csv文件。该文件应该存在于当前工作目录中，以便R语言可以读取它。当然我们也可以设置我们自己的目录并从那里读取文件。

获取和设置工作目录

您可以使用getwd()函数检查R语言工作区指向的目录。您还可以使用setwd()函数设置新的工作目录。

# Get and print current working directory.
print(getwd())

# Set current working directory.
setwd("/web/com")

# Get and print current working directory.
print(getwd())

当我们执行上面的代码，它产生以下结果 -

[1] "/web/com/1441086124_2016"
[1] "/web/com"

此结果取决于您的操作系统和您当前工作的目录。

输入为CSV文件

csv文件是一个文本文件，其中列中的值由逗号分隔。让我们考虑名为input.csv的文件中出现的以下数据。
您可以通过复制和粘贴此数据使用Windows记事本创建此文件。使用记事本中的保存为所有文件（*.*）选项将文件保存为input.csv。

id,name,salary,start_date,dept
1,Rick,623.3,2012-01-01,IT
2,Dan,515.2,2013-09-23,Operations
3,Michelle,611,2014-11-15,IT
4,Ryan,729,2014-05-11,HR
 ,Gary,843.25,2015-03-27,Finance
6,Nina,578,2013-05-21,IT
7,Simon,632.8,2013-07-30,Operations
8,Guru,722.5,2014-06-17,Finance

读取CSV文件

以下是read.csv()函数的一个简单示例，用于读取当前工作目录中可用的CSV文件 -

data <- read.csv("input.csv")
print(data)

当我们执行上面的代码，它产生以下结果 -

      id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

分析CSV文件

默认情况下，read.csv()函数将输出作为数据帧。这可以容易地如下检查。此外，我们可以检查列和行的数量。

data <- read.csv("input.csv")

print(is.data.frame(data))
print(ncol(data))
print(nrow(data))

当我们执行上面的代码，它产生以下结果 -

[1] TRUE
[1] 5
[1] 8

一旦我们读取数据帧中的数据，我们可以应用所有适用于数据帧的函数，如下一节所述。

获得最高工资

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)
print(sal)

当我们执行上面的代码，它产生以下结果 -

[1] 843.25

获取具有最高工资的人的详细信息

我们可以获取满足特定过滤条件的行，类似于SQL where子句。

# Create a data frame.
data <- read.csv("input.csv")

# Get the max salary from data frame.
sal <- max(data$salary)

# Get the person detail having max salary.
retval <- subset(data, salary == max(salary))
print(retval)

当我们执行上面的代码，它产生以下结果 -

      id    name  salary  start_date    dept
5     NA    Gary  843.25  2015-03-27    Finance

获取所有的IT部门员工的信息

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset( data, dept == "IT")
print(retval)

当我们执行上面的代码，它产生以下结果 -

       id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT
6      6    Nina      578.0    2013-05-21   IT

获得工资大于600的IT部门的人员

# Create a data frame.
data <- read.csv("input.csv")

info <- subset(data, salary > 600 & dept == "IT")
print(info)

当我们执行上面的代码，它产生以下结果 -

       id   name      salary   start_date   dept
1      1    Rick      623.3    2012-01-01   IT
3      3    Michelle  611.0    2014-11-15   IT

获得2014年或之后加入的人

# Create a data frame.
data <- read.csv("input.csv")

retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))
print(retval)

当我们执行上面的代码，它产生以下结果 -

       id   name     salary   start_date    dept
3      3    Michelle 611.00   2014-11-15    IT
4      4    Ryan     729.00   2014-05-11    HR
5     NA    Gary     843.25   2015-03-27    Finance
8      8    Guru     722.50   2014-06-17    Finance

写入CSV文件

R语言可以创建csv文件形式的现有数据帧。 write.csv()函数用于创建csv文件。此文件在工作目录中创建。

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv")
newdata <- read.csv("output.csv")
print(newdata)

当我们执行上面的代码，它产生以下结果 -

  X      id   name      salary   start_date    dept
1 3      3    Michelle  611.00   2014-11-15    IT
2 4      4    Ryan      729.00   2014-05-11    HR
3 5     NA    Gary      843.25   2015-03-27    Finance
4 8      8    Guru      722.50   2014-06-17    Finance

这里列X来自数据集newper。这可以在写入文件时使用附加参数删除。

# Create a data frame.
data <- read.csv("input.csv")
retval <- subset(data, as.Date(start_date) > as.Date("2014-01-01"))

# Write filtered data into a new file.
write.csv(retval,"output.csv", row.names = FALSE)
newdata <- read.csv("output.csv")
print(newdata)

当我们执行上面的代码，它产生以下结果 -

      id    name      salary   start_date    dept
1      3    Michelle  611.00   2014-11-15    IT
2      4    Ryan      729.00   2014-05-11    HR
3     NA    Gary      843.25   2015-03-27    Finance
4      8    Guru      722.50   2014-06-17    Finance

R语言 Excel文件

Microsoft Excel是最广泛使用的电子表格程序，以.xls或.xlsx格式存储数据。 R语言可以直接从这些文件使用一些excel特定的包。很少这样的包是 - XLConnect，xlsx，gdata等。我们将使用xlsx包。 R语言也可以使用这个包写入excel文件。

安装xlsx软件包

您可以在R控制台中使用以下命令来安装“xlsx”软件包。它可能会要求安装一些额外的软件包这个软件包依赖。按照具有所需软件包名称的同一命令安装其他软件包。

install.packages("xlsx")

验证并加载“xlsx”软件包

使用以下命令验证并加载“xlsx”软件包。

# Verify the package is installed.
any(grepl("xlsx",installed.packages()))

# Load the library into R workspace.
library("xlsx")

当脚本运行，我们得到以下输出。

[1] TRUE
Loading required package: rJava
Loading required package: methods
Loading required package: xlsxjars

输入为xlsx文件

打开Microsoft Excel。将以下数据复制并粘贴到名为sheet1的工作表中。

id	name      salary    start_date	dept
1	Rick	  623.3	    1/1/2012	IT
2	Dan       515.2     9/23/2013   Operations
3	Michelle  611	    11/15/2014	IT
4	Ryan	  729	    5/11/2014	HR
5	Gary	  843.25    3/27/2015	Finance
6	Nina	  578       5/21/2013	IT
7	Simon	  632.8	    7/30/2013	Operations
8	Guru	  722.5	    6/17/2014	Finance

还要将以下数据复制并粘贴到另一个工作表，并将此工作表重命名为“city”。

name	 city
Rick	 Seattle
Dan      Tampa
Michelle Chicago
Ryan	 Seattle
Gary	 Houston
Nina	 Boston
Simon	 Mumbai
Guru	 Dallas

将Excel文件另存为“input.xlsx”。应将其保存在R工作区的当前工作目录中。

读取Excel文件

通过使用read.xlsx()函数读取input.xlsx，如下所示。结果作为数据帧存储在R语言环境中。

# Read the first worksheet in the file input.xlsx.
data <- read.xlsx("input.xlsx", sheetIndex = 1)
print(data)

当我们执行上面的代码，它产生以下结果 -

      id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

R语言二进制文件

二进制文件是包含仅以位和字节（0和1）的形式存储的信息的文件。它们不是人类可读的，因为它中的字节转换为包含许多其他不可打印字符的字符和符号。尝试使用任何文本编辑器读取二进制文件将显示如Ø和ð的字符。

二进制文件必须由特定程序读取才能使用。例如，Microsoft Word程序的二进制文件只能通过Word程序读取到人类可读的形式。这表示，除了人类可读的文本之外，还有更多的信息，例如字符和页码等的格式化，它们也与字母数字字符一起存储。最后一个二进制文件是一个连续的字节序列。我们在文本文件中看到的换行符是连接第一行到下一行的字符。

有时，由其他程序生成的数据需要由R作为二进制文件处理。另外，R语言是创建可以与其他程序共享的二进制文件所必需的。

R语言有两个函数WriteBin()和readBin()来创建和读取二进制文件。

语法

writeBin(object, con)
readBin(con, what, n )

以下是所使用的参数的描述 -

con是读取或写入二进制文件的连接对象。
object是要写入的二进制文件。
什么是模式，如字符，整数等表示要读取的字节。
n是从二进制文件读取的字节数。

例

我们考虑R语言内置数据“mtcars”。首先，我们从它创建一个csv文件，并将其转换为二进制文件，并将其存储为操作系统文件。接下来我们读取这个创建的二进制文件。

写入二进制文件

我们将数据帧“mtcars”读取为csv文件，然后将其作为二进制文件写入操作系统。

# Read the "mtcars" data frame as a csv file and store only the columns 
   "cyl", "am" and "gear".
write.table(mtcars, file = "mtcars.csv",row.names = FALSE, na = "", 
   col.names = TRUE, sep = ",")

# Store 5 records from the csv file as a new data frame.
new.mtcars <- read.table("mtcars.csv",sep = ",",header = TRUE,nrows = 5)

# Create a connection object to write the binary file using mode "wb".
write.filename = file("/web/com/binmtcars.dat", "wb")

# Write the column names of the data frame to the connection object.
writeBin(colnames(new.mtcars), write.filename)

# Write the records in each of the column to the file.
writeBin(c(new.mtcars$cyl,new.mtcars$am,new.mtcars$gear), write.filename)

# Close the file for writing so that it can be read by other program.
close(write.filename)

读取二进制文件

上面创建的二进制文件将所有数据存储为连续字节。因此，我们将通过选择适当的列名称值和列值来读取它。

# Create a connection object to read the file in binary mode using "rb".
read.filename <- file("/web/com/binmtcars.dat", "rb")

# First read the column names. n = 3 as we have 3 columns.
column.names <- readBin(read.filename, character(),  n = 3)

# Next read the column values. n = 18 as we have 3 column names and 15 values.
read.filename <- file("/web/com/binmtcars.dat", "rb")
bindata <- readBin(read.filename, integer(),  n = 18)

# Print the data.
print(bindata)

# Read the values from 4th byte to 8th byte which represents "cyl".
cyldata = bindata[4:8]
print(cyldata)

# Read the values form 9th byte to 13th byte which represents "am".
amdata = bindata[9:13]
print(amdata)

# Read the values form 9th byte to 13th byte which represents "gear".
geardata = bindata[14:18]
print(geardata)

# Combine all the read values to a dat frame.
finaldata = cbind(cyldata, amdata, geardata)
colnames(finaldata) = column.names
print(finaldata)

当我们执行上面的代码，它产生以下结果和图表 -

 [1]    7108963 1728081249    7496037          6          6          4
 [7]          6          8          1          1          1          0
[13]          0          4          4          4          3          3

[1] 6 6 4 6 8

[1] 1 1 1 0 0

[1] 4 4 4 3 3

     cyl am gear
[1,]   6  1    4
[2,]   6  1    4
[3,]   4  1    4
[4,]   6  0    3
[5,]   8  0    3

正如我们所看到的，我们通过读取R中的二进制文件得到原始数据。

R语言 XML文件

XML是一种文件格式，它使用标准ASCII文本共享万维网，内部网和其他地方的文件格式和数据。它代表可扩展标记语言（XML）。类似于HTML它包含标记标签。但是与HTML中的标记标记描述页面的结构不同，在xml中，标记标记描述了包含在文件中的数据的含义。

您可以使用“XML”包读取R语言中的xml文件。此软件包可以使用以下命令安装。

install.packages("XML")

输入数据

通过将以下数据复制到文本编辑器（如记事本）中来创建XMl文件。使用.xml扩展名保存文件，并将文件类型选择为所有文件（*.*）。

<RECORDS>
   <EMPLOYEE>
      <ID>1</ID>
      <NAME>Rick</NAME>
      <SALARY>623.3</SALARY>
      <STARTDATE>1/1/2012</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
	
   <EMPLOYEE>
      <ID>2</ID>
      <NAME>Dan</NAME>
      <SALARY>515.2</SALARY>
      <STARTDATE>9/23/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>3</ID>
      <NAME>Michelle</NAME>
      <SALARY>611</SALARY>
      <STARTDATE>11/15/2014</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>4</ID>
      <NAME>Ryan</NAME>
      <SALARY>729</SALARY>
      <STARTDATE>5/11/2014</STARTDATE>
      <DEPT>HR</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>5</ID>
      <NAME>Gary</NAME>
      <SALARY>843.25</SALARY>
      <STARTDATE>3/27/2015</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>6</ID>
      <NAME>Nina</NAME>
      <SALARY>578</SALARY>
      <STARTDATE>5/21/2013</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>7</ID>
      <NAME>Simon</NAME>
      <SALARY>632.8</SALARY>
      <STARTDATE>7/30/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>
   
   <EMPLOYEE>
      <ID>8</ID>
      <NAME>Guru</NAME>
      <SALARY>722.5</SALARY>
      <STARTDATE>6/17/2014</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>
	
</RECORDS>

读取XML文件

xml文件由R语言使用函数xmlParse()读取。它作为列表存储在R语言中。

# Load the package required to read XML files.
library("XML")

# Also load the other required package.
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Print the result.
print(result)

当我们执行上面的代码，它产生以下结果 -

1
    Rick
    623.3
    1/1/2012
    IT
  
  
    2
    Dan
    515.2
    9/23/2013
    Operations
  
  
    3
    Michelle
    611
    11/15/2014
    IT
  
  
    4
    Ryan
    729
    5/11/2014
    HR
  
  
    5
    Gary
    843.25
    3/27/2015
    Finance
  
  
    6
    Nina
    578
    5/21/2013
    IT
  
  
    7
    Simon
    632.8
    7/30/2013
    Operations
  
  
    8
    Guru
    722.5
    6/17/2014
    Finance

获取XML文件中存在的节点数

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Find number of nodes in the root.
rootsize <- xmlSize(rootnode)

# Print the result.
print(rootsize)

当我们执行上面的代码，它产生以下结果 -

output
[1] 8

第一个节点的详细信息

让我们看看解析文件的第一条记录。它将给我们一个关于存在于顶层节点中的各种元素的想法。

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Print the result.
print(rootnode[1])

当我们执行上面的代码，它产生以下结果 -

$EMPLOYEE
  1
  Rick
  623.3
  1/1/2012
  IT
 

attr(,"class")
[1] "XMLInternalNodeList" "XMLNodeList"

获取节点的不同元素

# Load the packages required to read XML files.
library("XML")
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.
rootnode <- xmlRoot(result)

# Get the first element of the first node.
print(rootnode[[1]][[1]])

# Get the fifth element of the first node.
print(rootnode[[1]][[5]])

# Get the second element of the third node.
print(rootnode[[3]][[2]])

当我们执行上面的代码，它产生以下结果 -

1 
IT 
Michelle

XML到数据帧

为了在大文件中有效地处理数据，我们将xml文件中的数据作为数据框读取。然后处理数据帧以进行数据分析。

# Load the packages required to read XML files.
library("XML")
library("methods")

# Convert the input xml file to a data frame.
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)

当我们执行上面的代码，它产生以下结果 -

      ID    NAME     SALARY    STARTDATE       DEPT 
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

由于数据现在可以作为数据帧，我们可以使用数据帧相关函数来读取和操作文件。

R语言 JSON文件

JSON文件以人类可读格式将数据存储为文本。 Json代表JavaScript Object Notation。 R可以使用rjson包读取JSON文件。

安装rjson包

在R语言控制台中，您可以发出以下命令来安装rjson包。

install.packages("rjson")

输入数据

通过将以下数据复制到文本编辑器（如记事本）中来创建JSON文件。使用.json扩展名保存文件，并将文件类型选择为所有文件（*.*）。

{ 
   "ID":["1","2","3","4","5","6","7","8" ],
   "Name":["Rick","Dan","Michelle","Ryan","Gary","Nina","Simon","Guru" ],
   "Salary":["623.3","515.2","611","729","843.25","578","632.8","722.5" ],
   
   "StartDate":[ "1/1/2012","9/23/2013","11/15/2014","5/11/2014","3/27/2015","5/21/2013",
      "7/30/2013","6/17/2014"],
   "Dept":[ "IT","Operations","IT","HR","Finance","IT","Operations","Finance"]
}

读取JSON文件

JSON文件由R使用来自JSON()的函数读取。它作为列表存储在R中。

# Load the package required to read JSON files.
library("rjson")

# Give the input file name to the function.
result <- fromJSON(file = "input.json")

# Print the result.
print(result)

当我们执行上面的代码，它产生以下结果 -

$ID
[1] "1"   "2"   "3"   "4"   "5"   "6"   "7"   "8"

$Name
[1] "Rick"     "Dan"      "Michelle" "Ryan"     "Gary"     "Nina"     "Simon"    "Guru"

$Salary
[1] "623.3"  "515.2"  "611"    "729"    "843.25" "578"    "632.8"  "722.5"

$StartDate
[1] "1/1/2012"   "9/23/2013"  "11/15/2014" "5/11/2014"  "3/27/2015"  "5/21/2013"
   "7/30/2013"  "6/17/2014"

$Dept
[1] "IT"         "Operations" "IT"         "HR"         "Finance"    "IT"
   "Operations" "Finance"

将JSON转换为数据帧

我们可以使用as.data.frame()函数将上面提取的数据转换为R语言数据帧以进行进一步分析。

# Load the package required to read JSON files.
library("rjson")

# Give the input file name to the function.
result <- fromJSON(file = "input.json")

# Convert JSON file to a data frame.
json_data_frame <- as.data.frame(result)

print(json_data_frame)

当我们执行上面的代码，它产生以下结果 -

      id,   name,    salary,   start_date,     dept
1      1    Rick     623.30    2012-01-01      IT
2      2    Dan      515.20    2013-09-23      Operations
3      3    Michelle 611.00    2014-11-15      IT
4      4    Ryan     729.00    2014-05-11      HR
5     NA    Gary     843.25    2015-03-27      Finance
6      6    Nina     578.00    2013-05-21      IT
7      7    Simon    632.80    2013-07-30      Operations
8      8    Guru     722.50    2014-06-17      Finance

R语言 Web数据

许多网站提供数据供其用户使用。例如，世界卫生组织（WHO）以CSV，txt和XML文件的形式提供健康和医疗信息的报告。使用R语言程序，我们可以从这些网站以编程方式提取特定数据。 R语言中用于从网站中提取数据的一些包是“RCurl”，XML“和”stringr“，它们用于连接到URL，识别文件所需的链接并将它们下载到本地环境。

安装R语言的包

处理URL和链接到文件需要以下的包。如果它们在R语言环境中不可用，您可以使用以下命令安装它们。

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

输入数据

我们将访问URL天气数据，并使用R在2015年下载CSV文件。

例

我们将使用函数getHTMLLinks()来收集文件的URL。然后我们将使用函数downlaod.file()将文件保存到本地系统。由于我们将对多个文件一次又一次地应用相同的代码，因此我们将创建一个被多次调用的函数。文件名作为参数以R列表对象的形式传递到此函数。

# Read the URL.
url <- "http://www.geos.ed.ac.uk/~weather/jcmb_ws/"

# Gather the html links present in the webpage.
links <- getHTMLLinks(url)

# Identify only the links which point to the JCMB 2015 files. 
filenames <- links[str_detect(links, "JCMB_2015")]

# Store the file names as a list.
filenames_list <- as.list(filenames)

# Create a function to download the files by passing the URL and filename list.
downloadcsv <- function (mainurl,filename) {
   filedetails <- str_c(mainurl,filename)
   download.file(filedetails,filename)
}

# Now apply the l_ply function and save the files into the current R working directory.
l_ply(filenames,downloadcsv,mainurl = "http://www.geos.ed.ac.uk/~weather/jcmb_ws/")

验证文件下载

运行上述代码后，您可以在当前R语言工作目录中找到以下文件。

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"

R语言数据库

数据是关系数据库系统以规范化格式存储。因此，要进行统计计算，我们将需要非常先进和复杂的Sql查询。但R语言可以轻松地连接到许多关系数据库，如MySql，Oracle，Sql服务器等，并从它们获取记录作为数据框。一旦数据在R语言环境中可用，它就变成正常的R语言数据集，并且可以使用所有强大的包和函数来操作或分析。
在本教程中，我们将使用MySql作为连接到R语言的参考数据库。

RMySQL包

R语言有一个名为“RMySQL”的内置包，它提供与MySql数据库之间的本地连接。您可以使用以下命令在R语言环境中安装此软件包。

install.packages("RMySQL")

将R连接到MySql

一旦安装了包，我们在R中创建一个连接对象以连接到数据库。它使用用户名，密码，数据库名称和主机名作为输入。

# Create a connection Object to MySQL database.
# We will connect to the sampel database named "sakila" that comes with MySql installation.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila',
   host = 'localhost')

# List the tables available in this database.
 dbListTables(mysqlconnection)

当我们执行上面的代码，它产生以下结果 -

 [1] "actor"                      "actor_info"                
 [3] "address"                    "category"                  
 [5] "city"                       "country"                   
 [7] "customer"                   "customer_list"             
 [9] "film"                       "film_actor"                
[11] "film_category"              "film_list"                 
[13] "film_text"                  "inventory"                 
[15] "language"                   "nicer_but_slower_film_list"
[17] "payment"                    "rental"                    
[19] "sales_by_film_category"     "sales_by_store"            
[21] "staff"                      "staff_list"                
[23] "store"

查询表

我们可以使用函数dbSendQuery()查询MySql中的数据库表。查询在MySql中执行，并使用R语言fetch()函数返回结果集。最后，它被存储为R语言中的数据帧。

# Query the "actor" tables to get all the rows.
result = dbSendQuery(mysqlconnection, "select * from actor")

# Store the result in a R data frame object. n = 5 is used to fetch first 5 rows.
data.frame = fetch(result, n = 5)
print(data.frame)

当我们执行上面的代码，它产生以下结果 -

        actor_id   first_name    last_name         last_update
1        1         PENELOPE      GUINESS           2006-02-15 04:34:33
2        2         NICK          WAHLBERG          2006-02-15 04:34:33
3        3         ED            CHASE             2006-02-15 04:34:33
4        4         JENNIFER      DAVIS             2006-02-15 04:34:33
5        5         JOHNNY        LOLLOBRIGIDA      2006-02-15 04:34:33

带过滤条件的查询

我们可以传递任何有效的select查询来获取结果。

result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'")

# Fetch all the records(with n = -1) and store it as a data frame.
data.frame = fetch(result, n = -1)
print(data)

当我们执行上面的代码，它产生以下结果 -

        actor_id    first_name     last_name         last_update
1        18         DAN            TORN              2006-02-15 04:34:33
2        94         KENNETH        TORN              2006-02-15 04:34:33
3       102         WALTER         TORN              2006-02-15 04:34:33

更新表中的行

我们可以通过将更新查询传递给dbSendQuery()函数来更新Mysql表中的行。

dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")

在执行上面的代码后，我们可以看到在MySql环境中更新的表。

将数据插入表中

dbSendQuery(mysqlconnection,
   "insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
   values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
)

在执行上面的代码后，我们可以看到插入到MySql环境中的表中的行。

在MySql中创建表

我们可以在MySql中使用函数dbWriteTable()创建表。如果表已经存在，它将覆盖该表，并将数据帧用作输入。

# Create the connection object to the database where we want to create the table.
mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila', 
   host = 'localhost')

# Use the R data frame "mtcars" to create the table in MySql.
# All the rows of mtcars are taken inot MySql.
dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)

执行上面的代码后，我们可以看到在MySql环境中创建的表。

删除MySql中的表

我们可以删除MySql数据库中的表，将drop table语句传递到dbSendQuery()中，就像我们使用它查询表中的数据一样。

dbSendQuery(mysqlconnection, 'drop table if exists mtcars')

执行上面的代码后，我们可以看到表在MySql环境中被删除。

未经允许不得转载！R语言数据接口

R语言 数据接口

R语言 CSV文件

获取和设置工作目录

输入为CSV文件

读取CSV文件

分析CSV文件

获得最高工资

获取具有最高工资的人的详细信息

获取所有的IT部门员工的信息

获得工资大于600的IT部门的人员

获得2014年或之后加入的人

写入CSV文件

R语言 Excel文件

安装xlsx软件包

验证并加载“xlsx”软件包

输入为xlsx文件

读取Excel文件

R语言 二进制文件

语法

例

写入二进制文件

读取二进制文件

R语言 XML文件

输入数据

读取XML文件

获取XML文件中存在的节点数

第一个节点的详细信息

获取节点的不同元素

XML到数据帧

R语言 JSON文件

安装rjson包

输入数据

读取JSON文件

将JSON转换为数据帧

R语言 Web数据

安装R语言的包

输入数据

例

验证文件下载

R语言 数据库

RMySQL包

将R连接到MySql

查询表

带过滤条件的查询

更新表中的行

将数据插入表中

在MySql中创建表

删除MySql中的表

R语言数据接口

R语言二进制文件

R语言数据库