上周帮同事整理销售ref="/tag/426/" style="color:#643D3D;font-weight:bold;">数据,她还在Excel里手动拖拽筛选、反复复制粘贴,我打开RStudio,十几行代码跑完:自动清洗缺失值、按区域汇总、画出趋势图,还顺手加了回归线。她盯着图表愣了三秒,说‘这也能一键出来?’
从读数据开始就省力
R处理表格真不挑食——CSV、Excel、数据库甚至网页表格都能直接读。比如本地有个sales.csv:
library(readr)
data <- read_csv('sales.csv')连编码、表头、空行这些麻烦事,readr包自己猜得八九不离十。要是Excel文件,换用readxl:
library(readxl)
data <- read_excel('report.xlsx', sheet = 'Q3')清洗不是硬啃,是动动手指的事
脏数据最常见:空值、重复记录、错位的日期。dplyr包让操作像说话一样直白:
library(dplyr)
clean_data <- data %>%
filter(!is.na(sales_amount)) %>%
mutate(date = as.Date(order_date, '%Y/%m/%d')) %>%
arrange(desc(date))filter筛掉空销售额,mutate改列,arrange排时间顺序——不用点鼠标,也不用记函数嵌套层级。
分析快,图也快
算个平均值、分组统计,一行搞定:
data %>% group_by(region) %>% summarise(avg = mean(sales_amount), count = n())想看区域销量分布?ggplot2几句话出图:
library(ggplot2)
ggplot(data, aes(x = region, y = sales_amount)) +
geom_boxplot() +
labs(title = '各区域销量分布', x = '地区', y = '销售额(万元)')图自动带标题、坐标轴标签,颜色、大小还能随时调。导出PDF或PNG,右键就能保存。
小任务别硬扛,写成脚本存起来
每月初要跑同样的报表?把上面那些代码存成analysis.R,下次双击运行,或者定时用Rscript analysis.R自动执行。再也不用担心手抖删错单元格,也不怕改了公式忘了保存上一版。
有人觉得R门槛高,其实你每天用的筛选、排序、求和、画折线图,R里都有对应的一句命令。它不替代思考,只替你甩掉重复劳动——就像有了电钻,谁还天天抡锤子钉钉子呢。