Skip to content

精选参考资料库

Curated Reference Library

本文档汇总了数据分析、机器学习、数据科学领域的优质学习资源,包括 GitHub 项目、在线课程、经典书籍、工具库和实战案例。


📚 GitHub 优质项目

Awesome 列表类

综合性资源

项目名称 Stars 描述 链接
awesome-data-science 60k+ 数据科学资源大全 链接
awesome-python-data-science 10k+ Python 数据科学工具集 链接
awesome-machine-learning 60k+ 机器学习资源汇总 链接
awesome-deep-learning 50k+ 深度学习资源集合 链接
awesome-nlp 20k+ 自然语言处理资源 链接
awesome-statistics 15k+ 统计学资源列表 链接

学习路径类

项目名称 Stars 描述 链接
ossu/data-science 60k+ 完整的数据科学自学课程 链接
developer-roadmap 200k+ 开发者学习路线图(含数据工程) 链接
ml-roadmap 5k+ 机器学习学习路径 链接

教程与书籍类

项目名称 Stars 描述 链接
python-machine-learning-book 30k+ 《Python 机器学习》配套代码 链接
Hands-On-ML-with-Sklearn-and-TF 25k+ 《Hands-On ML》代码实现 链接
ISLR-python 10k+ 《统计学习导论》Python 实现 链接
PythonDataScienceHandbook 15k+ 《Python 数据科学手册》 链接
CS229-ML-Implements 8k+ 吴恩达 CS229 作业实现 链接
leeml-notes 12k+ 李宏毅机器学习笔记 链接
Coursera-ML-AndrewNg-Notes 20k+ 吴恩达机器学习课程笔记 链接

实战案例类

项目名称 Stars 描述 链接
data-science-projects 10k+ 数据科学项目案例集 链接
ml-projects-guide 8k+ 机器学习项目实战指南 链接
kaggle-gpu-kernels 5k+ Kaggle GPU 加速 kernels 链接

📖 经典书籍推荐

数学基础

线性代数

书名 作者 难度 推荐章节
《线性代数及其应用》 Gilbert Strang ⭐⭐⭐ 全部
《Introduction to Linear Algebra》 Gilbert Strang ⭐⭐⭐⭐ Ch1-6
3Blue1Brown 线性代数可视化 Grant Sanderson ⭐⭐ B 站视频

配套资源: - MIT OpenCourseWare 18.06: 链接 - 3Blue1Brown 视频:B 站

微积分

书名 作者 难度 推荐章节
《微积分》 James Stewart ⭐⭐⭐⭐ Ch1-14
《Calculus》 James Stewart ⭐⭐⭐⭐ Ch1-11
3Blue1Brown 微积分可视化 Grant Sanderson ⭐⭐ B 站视频

概率统计

书名 作者 难度 推荐章节
《概率论与数理统计》 陈希孺 ⭐⭐⭐ 全部
《统计推断》 Casella & Berger ⭐⭐⭐⭐⭐ Ch1-12
《概率导论》 Dimitri P. Bertsekas ⭐⭐⭐⭐ Ch1-9

配套资源: - Khan Academy 概率统计:链接


统计学

书名 作者 难度 推荐理由
《统计学图鉴》 栗原伸一 ⭐⭐ 图解统计学,适合入门
《赤裸裸的统计学》 Charles Wheelan ⭐⭐ 通俗易懂,生活化案例
《统计学习方法》 李航 ⭐⭐⭐⭐ 机器学习理论经典
《The Elements of Statistical Learning》 Hastie et al. ⭐⭐⭐⭐⭐ 统计学习圣经(ESL)
《统计推断》 Casella ⭐⭐⭐⭐⭐ 统计推断经典教材

中文资源: - 《统计学习方法》中文笔记:链接 - ESL 中文翻译:链接


数据分析

书名 作者 难度 配套代码
《利用 Python 进行数据分析》 Wes McKinney ⭐⭐⭐ GitHub
《Python 数据科学手册》 Jake VanderPlas ⭐⭐⭐ GitHub
《数据科学实战》 Cathy O'Neil ⭐⭐ 理论为主
《数据化决策》 Douglas W. Hubbard ⭐⭐ 商业应用
《精益数据分析》 Alistair Croll ⭐⭐ 创业公司视角

必读章节: - 《利用 Python 进行数据分析》:Ch1-10(Pandas 核心) - 《Python 数据科学手册》:Ch2-5(NumPy, Pandas, Matplotlib, Scikit-learn)


机器学习

入门级

书名 作者 难度 配套资源
《机器学习》 周志华 ⭐⭐⭐⭐ 读书笔记
《统计学习方法》 李航 ⭐⭐⭐⭐ 代码实现
《Hands-On Machine Learning》 Aurélien Géron ⭐⭐⭐ GitHub

进阶级

书名 作者 难度 特点
《Pattern Recognition and Machine Learning》 Christopher M. Bishop ⭐⭐⭐⭐⭐ 贝叶斯视角
《The Elements of Statistical Learning》 Hastie et al. ⭐⭐⭐⭐⭐ 统计学习理论
《Understanding Machine Learning》 Shai Shalev-Shwartz ⭐⭐⭐⭐ 计算学习理论

深度学习

书名 作者 难度 配套资源
《深度学习》 Ian Goodfellow ⭐⭐⭐⭐⭐ 花书
《Deep Learning》 Ian Goodfellow ⭐⭐⭐⭐⭐ 英文版花书
《Neural Networks and Deep Learning》 Michael Nielsen ⭐⭐⭐ 在线书籍

商业应用

书名 作者 领域 推荐理由
《数据化决策》 Douglas W. Hubbard 商业决策 量化决策方法论
《精益数据分析》 Alistair Croll 创业公司 关键指标体系
《增长黑客》 Sean Ellis 用户增长 实战案例丰富
《实验思维》 Dean Karlan 因果推断 发展经济学视角
《Trustworthy Online Controlled Experiments》 Kohavi A/B 测试 微软实战经验

🎓 在线课程

MOOC 平台

综合课程

课程名称 平台 时长 难度 链接
Data Science Specialization Coursera 10 个月 ⭐⭐⭐ 链接
IBM Data Science Professional Coursera 6 个月 ⭐⭐ 链接
MicroMasters in Statistics and Data Science edX 1 年 ⭐⭐⭐⭐ MIT 链接

机器学习专项

课程名称 讲师 平台 难度 链接
Machine Learning Andrew Ng Coursera ⭐⭐⭐ 链接
Deep Learning Specialization Andrew Ng Coursera ⭐⭐⭐⭐ 链接
CS229: Machine Learning Andrew Ng Stanford ⭐⭐⭐⭐ 链接
机器学习 李宏毅 NTU ⭐⭐⭐ B 站

中文优质课程

课程名称 讲师 机构 平台 链接
机器学习 周志华 南京大学 学堂在线 链接
数据科学导论 郭炜 北京大学 校内 -
深度学习 吴恩达 Stanford 网易云课堂 中文字幕

专项技能课程

Python 编程

课程名称 平台 链接
Python for Everybody Coursera 链接
Python 3 Tutorial Codecademy 链接

SQL

课程名称 平台 链接
SQLZOO SQLZOO 链接
SQL for Data Science Coursera 链接
LeetCode SQL 题库 LeetCode 链接
Mode Analytics SQL Tutorial Mode 链接

Kaggle Learn

课程名称 难度 链接
Python ⭐⭐ 链接
Pandas ⭐⭐⭐ 链接
Data Visualization ⭐⭐ 链接
Intro to Machine Learning ⭐⭐⭐ 链接
Intermediate Machine Learning ⭐⭐⭐⭐ 链接

🛠️ 工具库与框架

Python 核心库

数据处理

库名 用途 文档链接
NumPy 数值计算 文档
Pandas 数据处理 文档
Polars 高性能数据处理 文档

可视化

库名 特点 文档链接
Matplotlib 基础可视化 文档
Seaborn 统计可视化 文档
Plotly 交互式可视化 文档
Bokeh 交互式图表 文档
Altair 声明式可视化 文档

机器学习

库名 用途 文档链接
Scikit-learn 传统机器学习 文档
XGBoost 梯度提升树 文档
LightGBM 梯度提升树 文档
CatBoost 类别特征处理 文档

深度学习

框架 特点 文档链接
PyTorch 动态图,研究友好 文档
TensorFlow 静态图,生产部署 文档
Keras 高层 API 文档
PyTorch Lightning PyTorch 封装 文档

统计建模

库名 用途 文档链接
Statsmodels 统计模型 文档
SciPy 科学计算 文档
PyMC3 贝叶斯统计 文档

SQL 与数据库

数据库 类型 适用场景
PostgreSQL 关系型 复杂查询,数据分析
MySQL 关系型 Web 应用,事务处理
SQLite 嵌入式 本地分析,小型项目
BigQuery 云数据仓库 大规模数据分析
Snowflake 云数据仓库 企业级数据仓库

BI 工具

商业工具

工具 特点 官网
Tableau 可视化强大 官网
Power BI 微软生态 官网
Looker 数据探索 官网

开源工具

工具 特点 GitHub
Metabase 易用,美观 链接
Superset 功能丰富 链接
Redash 查询友好 链接

大数据工具

工具 用途 文档链接
Apache Spark 分布式计算 文档
Hadoop 分布式存储 文档
Hive 数据仓库 文档
Flink 流处理 文档
Kafka 消息队列 文档
Dask 并行计算 文档

📊 公开数据集

综合平台

平台 数据量 链接
Kaggle Datasets 50k+ 链接
UCI Machine Learning Repository 500+ 链接
Google Dataset Search 不限 链接
AWS Open Data 不限 链接
天池数据集 1k+ 链接

行业数据

金融

数据集 描述 链接
Yahoo Finance 股票历史数据 链接
FRED 经济数据 链接
Quandl 金融经济数据 链接

电商

数据集 描述 链接
UCI Online Retail 电商交易数据 链接
Amazon Reviews 商品评论数据 链接
Etsy Search Logs 搜索日志数据 链接

社交

数据集 描述 链接
Twitter API 社交媒体数据 链接
Reddit Datasets 论坛讨论数据 链接
IMDb Datasets 电影评分数据 链接

政府与组织

平台 数据类型 链接
World Bank Open Data 世界经济数据 链接
UN Data 联合国统计数据 链接
data.gov 美国政府数据 链接
国家统计局 中国经济数据 链接

🌐 博客与社区

技术博客

英文

博客 领域 链接
Towards Data Science 综合 链接
KDnuggets ML/AI 链接
Analytics Vidhya 数据分析 链接
Distill.pub 可解释 AI 链接
Google AI Blog 前沿研究 链接
Facebook AI Blog 前沿研究 链接

中文

博客 领域 链接
机器之心 AI/ML 链接
量子位 AI 前沿 链接
Datawhale 学习社区 链接
阿里技术 工程实践 [公众号]
腾讯技术 工程实践 [公众号]

社区论坛

论坛 领域 链接
Stack Overflow 编程问答 链接
Cross Validated 统计问答 链接
Kaggle Forums 竞赛讨论 链接
Reddit r/datascience 行业讨论 链接
Reddit r/MachineLearning 学术研究 链接
知乎数据科学 中文讨论 链接
V2EX 职场节点 职业发展 链接

资讯平台

平台 类型 链接
arXiv (cs.LG, stat.ML) 论文预印本 链接
Medium Data Science 技术文章 链接
Hacker News 科技资讯 链接
掘金数据科学专栏 中文技术 链接

📋 参考资源使用建议

按学习阶段

入门阶段 (0-6 个月)

重点:基础概念 + 工具使用

推荐资源: - 书籍:《利用 Python 进行数据分析》《统计学图鉴》 - 课程:Coursera Machine Learning (Andrew Ng) - 练习:Kaggle Learn, LeetCode SQL - 工具:Pandas, Matplotlib, Scikit-learn

进阶阶段 (6-18 个月)

重点:算法原理 + 实战项目

推荐资源: - 书籍:《统计学习方法》《Hands-On ML》 - 课程:Deep Learning Specialization - 练习:Kaggle 竞赛,开源项目贡献 - 工具:XGBoost, PyTorch/TensorFlow

高级阶段 (18 个月+)

重点:前沿研究 + 专业深耕

推荐资源: - 书籍:ESL, PRML, 深度学习花书 - 论文:arXiv 最新研究 - 实践:复杂业务场景,技术创新 - 工具:Spark, 分布式训练框架


按职业方向

数据分析师

核心技能:SQL, Python, BI 工具,统计学

推荐资源: - SQL: LeetCode, Mode Tutorial - Python: 《利用 Python 进行数据分析》 - BI: Tableau/PowerBI 官方教程 - 统计:《统计学图鉴》《统计推断》

机器学习工程师

核心技能:ML 算法,深度学习,MLOps

推荐资源: - 理论:《统计学习方法》CS229 - 实战:《Hands-On ML》 - 部署:MLOps 相关课程 - 工具:PyTorch, Scikit-learn, Docker

数据科学家

核心技能:统计建模,因果推断,实验设计

推荐资源: - 统计:ESL, 《统计推断》 - 因果:《Causal Inference: The Mixtape》 - 实验:A/B Testing 课程 - 业务:《精益数据分析》


🔍 决策科学专题资源

核心理论

资源 类型 内容
决策方法论框架 专题文档 决策理论、行为经济学、分析成熟度模型
决策科学资源 专题文档 期望效用理论、前景理论、贝叶斯决策、启发式与偏差
决策工具模板 工具模板 SWOT、PESTEL、决策树、蒙特卡洛等 8 大工具

经典理论

  • 期望效用理论 (von Neumann & Morgenstern, 1944)
  • 前景理论 (Kahneman & Tversky, 1979)
  • 双系统思维 (Kahneman, 2011)
  • Knight 不确定性 (Knight, 1921)

推荐书籍

书名 作者 年份 主题
《思考,快与慢》 Daniel Kahneman 2011 双系统思维理论
《Noise》 Kahneman et al. 2021 决策中的噪音
《助推》 Thaler & Sunstein 2008 行为经济学应用
《黑天鹅》 Nassim Taleb 2007 极端不确定性
《Risk, Uncertainty and Profit》 Frank Knight 1921 风险与不确定性

决策工具

  • 定性分析: SWOT、PESTEL
  • 定量分析: 决策树、蒙特卡洛模拟、AHP 层次分析
  • 风险评估: 敏感性分析、情景规划
  • 经济性评估: 成本效益分析

最后更新: 2026-06-01

维护说明: 本资源库会定期更新,如发现链接失效或有更好的资源,欢迎提交 Issue 或 Pull Request。