R语言做数据分析入门实战

上周帮同事整理销售ref="/tag/426/" style="color:#643D3D;font-weight:bold;">数据，她还在Excel里手动拖拽筛选、反复复制粘贴，我打开RStudio，十几行代码跑完：自动清洗缺失值、按区域汇总、画出趋势图，还顺手加了回归线。她盯着图表愣了三秒，说‘这也能一键出来？’

从读数据开始就省力

R处理表格真不挑食——CSV、Excel、数据库甚至网页表格都能直接读。比如本地有个sales.csv：

library(readr)
data <- read_csv('sales.csv')

连编码、表头、空行这些麻烦事，readr包自己猜得八九不离十。要是Excel文件，换用readxl：

library(readxl)
data <- read_excel('report.xlsx', sheet = 'Q3')

清洗不是硬啃，是动动手指的事

脏数据最常见：空值、重复记录、错位的日期。dplyr包让操作像说话一样直白：

library(dplyr)
clean_data <- data %>%
  filter(!is.na(sales_amount)) %>%
  mutate(date = as.Date(order_date, '%Y/%m/%d')) %>%
  arrange(desc(date))

filter筛掉空销售额，mutate改列，arrange排时间顺序——不用点鼠标，也不用记函数嵌套层级。

分析快，图也快

算个平均值、分组统计，一行搞定：

data %>% group_by(region) %>% summarise(avg = mean(sales_amount), count = n())

想看区域销量分布？ggplot2几句话出图：

library(ggplot2)
ggplot(data, aes(x = region, y = sales_amount)) +
  geom_boxplot() +
  labs(title = '各区域销量分布', x = '地区', y = '销售额（万元）')

图自动带标题、坐标轴标签，颜色、大小还能随时调。导出PDF或PNG，右键就能保存。

小任务别硬扛，写成脚本存起来

每月初要跑同样的报表？把上面那些代码存成analysis.R，下次双击运行，或者定时用Rscript analysis.R自动执行。再也不用担心手抖删错单元格，也不怕改了公式忘了保存上一版。

有人觉得R门槛高，其实你每天用的筛选、排序、求和、画折线图，R里都有对应的一句命令。它不替代思考，只替你甩掉重复劳动——就像有了电钻，谁还天天抡锤子钉钉子呢。

用R语言做数据分析，其实比Excel还顺手

从读数据开始就省力

清洗不是硬啃，是动动手指的事

分析快，图也快

小任务别硬扛，写成脚本存起来