精选参考资料库
Curated Reference Library
本文档汇总了数据分析、机器学习、数据科学领域的优质学习资源,包括 GitHub 项目、在线课程、经典书籍、工具库和实战案例。
📚 GitHub 优质项目
Awesome 列表类
综合性资源
| 项目名称 |
Stars |
描述 |
链接 |
| awesome-data-science |
60k+ |
数据科学资源大全 |
链接 |
| awesome-python-data-science |
10k+ |
Python 数据科学工具集 |
链接 |
| awesome-machine-learning |
60k+ |
机器学习资源汇总 |
链接 |
| awesome-deep-learning |
50k+ |
深度学习资源集合 |
链接 |
| awesome-nlp |
20k+ |
自然语言处理资源 |
链接 |
| awesome-statistics |
15k+ |
统计学资源列表 |
链接 |
学习路径类
| 项目名称 |
Stars |
描述 |
链接 |
| ossu/data-science |
60k+ |
完整的数据科学自学课程 |
链接 |
| developer-roadmap |
200k+ |
开发者学习路线图(含数据工程) |
链接 |
| ml-roadmap |
5k+ |
机器学习学习路径 |
链接 |
教程与书籍类
| 项目名称 |
Stars |
描述 |
链接 |
| python-machine-learning-book |
30k+ |
《Python 机器学习》配套代码 |
链接 |
| Hands-On-ML-with-Sklearn-and-TF |
25k+ |
《Hands-On ML》代码实现 |
链接 |
| ISLR-python |
10k+ |
《统计学习导论》Python 实现 |
链接 |
| PythonDataScienceHandbook |
15k+ |
《Python 数据科学手册》 |
链接 |
| CS229-ML-Implements |
8k+ |
吴恩达 CS229 作业实现 |
链接 |
| leeml-notes |
12k+ |
李宏毅机器学习笔记 |
链接 |
| Coursera-ML-AndrewNg-Notes |
20k+ |
吴恩达机器学习课程笔记 |
链接 |
实战案例类
| 项目名称 |
Stars |
描述 |
链接 |
| data-science-projects |
10k+ |
数据科学项目案例集 |
链接 |
| ml-projects-guide |
8k+ |
机器学习项目实战指南 |
链接 |
| kaggle-gpu-kernels |
5k+ |
Kaggle GPU 加速 kernels |
链接 |
📖 经典书籍推荐
数学基础
线性代数
| 书名 |
作者 |
难度 |
推荐章节 |
| 《线性代数及其应用》 |
Gilbert Strang |
⭐⭐⭐ |
全部 |
| 《Introduction to Linear Algebra》 |
Gilbert Strang |
⭐⭐⭐⭐ |
Ch1-6 |
| 3Blue1Brown 线性代数可视化 |
Grant Sanderson |
⭐⭐ |
B 站视频 |
配套资源:
- MIT OpenCourseWare 18.06: 链接
- 3Blue1Brown 视频:B 站
微积分
| 书名 |
作者 |
难度 |
推荐章节 |
| 《微积分》 |
James Stewart |
⭐⭐⭐⭐ |
Ch1-14 |
| 《Calculus》 |
James Stewart |
⭐⭐⭐⭐ |
Ch1-11 |
| 3Blue1Brown 微积分可视化 |
Grant Sanderson |
⭐⭐ |
B 站视频 |
概率统计
| 书名 |
作者 |
难度 |
推荐章节 |
| 《概率论与数理统计》 |
陈希孺 |
⭐⭐⭐ |
全部 |
| 《统计推断》 |
Casella & Berger |
⭐⭐⭐⭐⭐ |
Ch1-12 |
| 《概率导论》 |
Dimitri P. Bertsekas |
⭐⭐⭐⭐ |
Ch1-9 |
配套资源:
- Khan Academy 概率统计:链接
统计学
| 书名 |
作者 |
难度 |
推荐理由 |
| 《统计学图鉴》 |
栗原伸一 |
⭐⭐ |
图解统计学,适合入门 |
| 《赤裸裸的统计学》 |
Charles Wheelan |
⭐⭐ |
通俗易懂,生活化案例 |
| 《统计学习方法》 |
李航 |
⭐⭐⭐⭐ |
机器学习理论经典 |
| 《The Elements of Statistical Learning》 |
Hastie et al. |
⭐⭐⭐⭐⭐ |
统计学习圣经(ESL) |
| 《统计推断》 |
Casella |
⭐⭐⭐⭐⭐ |
统计推断经典教材 |
中文资源:
- 《统计学习方法》中文笔记:链接
- ESL 中文翻译:链接
数据分析
| 书名 |
作者 |
难度 |
配套代码 |
| 《利用 Python 进行数据分析》 |
Wes McKinney |
⭐⭐⭐ |
GitHub |
| 《Python 数据科学手册》 |
Jake VanderPlas |
⭐⭐⭐ |
GitHub |
| 《数据科学实战》 |
Cathy O'Neil |
⭐⭐ |
理论为主 |
| 《数据化决策》 |
Douglas W. Hubbard |
⭐⭐ |
商业应用 |
| 《精益数据分析》 |
Alistair Croll |
⭐⭐ |
创业公司视角 |
必读章节:
- 《利用 Python 进行数据分析》:Ch1-10(Pandas 核心)
- 《Python 数据科学手册》:Ch2-5(NumPy, Pandas, Matplotlib, Scikit-learn)
机器学习
入门级
| 书名 |
作者 |
难度 |
配套资源 |
| 《机器学习》 |
周志华 |
⭐⭐⭐⭐ |
读书笔记 |
| 《统计学习方法》 |
李航 |
⭐⭐⭐⭐ |
代码实现 |
| 《Hands-On Machine Learning》 |
Aurélien Géron |
⭐⭐⭐ |
GitHub |
进阶级
| 书名 |
作者 |
难度 |
特点 |
| 《Pattern Recognition and Machine Learning》 |
Christopher M. Bishop |
⭐⭐⭐⭐⭐ |
贝叶斯视角 |
| 《The Elements of Statistical Learning》 |
Hastie et al. |
⭐⭐⭐⭐⭐ |
统计学习理论 |
| 《Understanding Machine Learning》 |
Shai Shalev-Shwartz |
⭐⭐⭐⭐ |
计算学习理论 |
深度学习
| 书名 |
作者 |
难度 |
配套资源 |
| 《深度学习》 |
Ian Goodfellow |
⭐⭐⭐⭐⭐ |
花书 |
| 《Deep Learning》 |
Ian Goodfellow |
⭐⭐⭐⭐⭐ |
英文版花书 |
| 《Neural Networks and Deep Learning》 |
Michael Nielsen |
⭐⭐⭐ |
在线书籍 |
商业应用
| 书名 |
作者 |
领域 |
推荐理由 |
| 《数据化决策》 |
Douglas W. Hubbard |
商业决策 |
量化决策方法论 |
| 《精益数据分析》 |
Alistair Croll |
创业公司 |
关键指标体系 |
| 《增长黑客》 |
Sean Ellis |
用户增长 |
实战案例丰富 |
| 《实验思维》 |
Dean Karlan |
因果推断 |
发展经济学视角 |
| 《Trustworthy Online Controlled Experiments》 |
Kohavi |
A/B 测试 |
微软实战经验 |
🎓 在线课程
MOOC 平台
综合课程
| 课程名称 |
平台 |
时长 |
难度 |
链接 |
| Data Science Specialization |
Coursera |
10 个月 |
⭐⭐⭐ |
链接 |
| IBM Data Science Professional |
Coursera |
6 个月 |
⭐⭐ |
链接 |
| MicroMasters in Statistics and Data Science |
edX |
1 年 |
⭐⭐⭐⭐ |
MIT 链接 |
机器学习专项
| 课程名称 |
讲师 |
平台 |
难度 |
链接 |
| Machine Learning |
Andrew Ng |
Coursera |
⭐⭐⭐ |
链接 |
| Deep Learning Specialization |
Andrew Ng |
Coursera |
⭐⭐⭐⭐ |
链接 |
| CS229: Machine Learning |
Andrew Ng |
Stanford |
⭐⭐⭐⭐ |
链接 |
| 机器学习 |
李宏毅 |
NTU |
⭐⭐⭐ |
B 站 |
中文优质课程
| 课程名称 |
讲师 |
机构 |
平台 |
链接 |
| 机器学习 |
周志华 |
南京大学 |
学堂在线 |
链接 |
| 数据科学导论 |
郭炜 |
北京大学 |
校内 |
- |
| 深度学习 |
吴恩达 |
Stanford |
网易云课堂 |
中文字幕 |
专项技能课程
Python 编程
| 课程名称 |
平台 |
链接 |
| Python for Everybody |
Coursera |
链接 |
| Python 3 Tutorial |
Codecademy |
链接 |
SQL
| 课程名称 |
平台 |
链接 |
| SQLZOO |
SQLZOO |
链接 |
| SQL for Data Science |
Coursera |
链接 |
| LeetCode SQL 题库 |
LeetCode |
链接 |
| Mode Analytics SQL Tutorial |
Mode |
链接 |
Kaggle Learn
| 课程名称 |
难度 |
链接 |
| Python |
⭐⭐ |
链接 |
| Pandas |
⭐⭐⭐ |
链接 |
| Data Visualization |
⭐⭐ |
链接 |
| Intro to Machine Learning |
⭐⭐⭐ |
链接 |
| Intermediate Machine Learning |
⭐⭐⭐⭐ |
链接 |
🛠️ 工具库与框架
Python 核心库
数据处理
| 库名 |
用途 |
文档链接 |
| NumPy |
数值计算 |
文档 |
| Pandas |
数据处理 |
文档 |
| Polars |
高性能数据处理 |
文档 |
可视化
| 库名 |
特点 |
文档链接 |
| Matplotlib |
基础可视化 |
文档 |
| Seaborn |
统计可视化 |
文档 |
| Plotly |
交互式可视化 |
文档 |
| Bokeh |
交互式图表 |
文档 |
| Altair |
声明式可视化 |
文档 |
机器学习
| 库名 |
用途 |
文档链接 |
| Scikit-learn |
传统机器学习 |
文档 |
| XGBoost |
梯度提升树 |
文档 |
| LightGBM |
梯度提升树 |
文档 |
| CatBoost |
类别特征处理 |
文档 |
深度学习
| 框架 |
特点 |
文档链接 |
| PyTorch |
动态图,研究友好 |
文档 |
| TensorFlow |
静态图,生产部署 |
文档 |
| Keras |
高层 API |
文档 |
| PyTorch Lightning |
PyTorch 封装 |
文档 |
统计建模
| 库名 |
用途 |
文档链接 |
| Statsmodels |
统计模型 |
文档 |
| SciPy |
科学计算 |
文档 |
| PyMC3 |
贝叶斯统计 |
文档 |
SQL 与数据库
| 数据库 |
类型 |
适用场景 |
| PostgreSQL |
关系型 |
复杂查询,数据分析 |
| MySQL |
关系型 |
Web 应用,事务处理 |
| SQLite |
嵌入式 |
本地分析,小型项目 |
| BigQuery |
云数据仓库 |
大规模数据分析 |
| Snowflake |
云数据仓库 |
企业级数据仓库 |
BI 工具
商业工具
| 工具 |
特点 |
官网 |
| Tableau |
可视化强大 |
官网 |
| Power BI |
微软生态 |
官网 |
| Looker |
数据探索 |
官网 |
开源工具
| 工具 |
特点 |
GitHub |
| Metabase |
易用,美观 |
链接 |
| Superset |
功能丰富 |
链接 |
| Redash |
查询友好 |
链接 |
大数据工具
| 工具 |
用途 |
文档链接 |
| Apache Spark |
分布式计算 |
文档 |
| Hadoop |
分布式存储 |
文档 |
| Hive |
数据仓库 |
文档 |
| Flink |
流处理 |
文档 |
| Kafka |
消息队列 |
文档 |
| Dask |
并行计算 |
文档 |
📊 公开数据集
综合平台
| 平台 |
数据量 |
链接 |
| Kaggle Datasets |
50k+ |
链接 |
| UCI Machine Learning Repository |
500+ |
链接 |
| Google Dataset Search |
不限 |
链接 |
| AWS Open Data |
不限 |
链接 |
| 天池数据集 |
1k+ |
链接 |
行业数据
金融
| 数据集 |
描述 |
链接 |
| Yahoo Finance |
股票历史数据 |
链接 |
| FRED |
经济数据 |
链接 |
| Quandl |
金融经济数据 |
链接 |
电商
| 数据集 |
描述 |
链接 |
| UCI Online Retail |
电商交易数据 |
链接 |
| Amazon Reviews |
商品评论数据 |
链接 |
| Etsy Search Logs |
搜索日志数据 |
链接 |
社交
| 数据集 |
描述 |
链接 |
| Twitter API |
社交媒体数据 |
链接 |
| Reddit Datasets |
论坛讨论数据 |
链接 |
| IMDb Datasets |
电影评分数据 |
链接 |
政府与组织
| 平台 |
数据类型 |
链接 |
| World Bank Open Data |
世界经济数据 |
链接 |
| UN Data |
联合国统计数据 |
链接 |
| data.gov |
美国政府数据 |
链接 |
| 国家统计局 |
中国经济数据 |
链接 |
🌐 博客与社区
技术博客
英文
| 博客 |
领域 |
链接 |
| Towards Data Science |
综合 |
链接 |
| KDnuggets |
ML/AI |
链接 |
| Analytics Vidhya |
数据分析 |
链接 |
| Distill.pub |
可解释 AI |
链接 |
| Google AI Blog |
前沿研究 |
链接 |
| Facebook AI Blog |
前沿研究 |
链接 |
中文
| 博客 |
领域 |
链接 |
| 机器之心 |
AI/ML |
链接 |
| 量子位 |
AI 前沿 |
链接 |
| Datawhale |
学习社区 |
链接 |
| 阿里技术 |
工程实践 |
[公众号] |
| 腾讯技术 |
工程实践 |
[公众号] |
社区论坛
| 论坛 |
领域 |
链接 |
| Stack Overflow |
编程问答 |
链接 |
| Cross Validated |
统计问答 |
链接 |
| Kaggle Forums |
竞赛讨论 |
链接 |
| Reddit r/datascience |
行业讨论 |
链接 |
| Reddit r/MachineLearning |
学术研究 |
链接 |
| 知乎数据科学 |
中文讨论 |
链接 |
| V2EX 职场节点 |
职业发展 |
链接 |
资讯平台
| 平台 |
类型 |
链接 |
| arXiv (cs.LG, stat.ML) |
论文预印本 |
链接 |
| Medium Data Science |
技术文章 |
链接 |
| Hacker News |
科技资讯 |
链接 |
| 掘金数据科学专栏 |
中文技术 |
链接 |
📋 参考资源使用建议
按学习阶段
入门阶段 (0-6 个月)
重点:基础概念 + 工具使用
推荐资源:
- 书籍:《利用 Python 进行数据分析》《统计学图鉴》
- 课程:Coursera Machine Learning (Andrew Ng)
- 练习:Kaggle Learn, LeetCode SQL
- 工具:Pandas, Matplotlib, Scikit-learn
进阶阶段 (6-18 个月)
重点:算法原理 + 实战项目
推荐资源:
- 书籍:《统计学习方法》《Hands-On ML》
- 课程:Deep Learning Specialization
- 练习:Kaggle 竞赛,开源项目贡献
- 工具:XGBoost, PyTorch/TensorFlow
高级阶段 (18 个月+)
重点:前沿研究 + 专业深耕
推荐资源:
- 书籍:ESL, PRML, 深度学习花书
- 论文:arXiv 最新研究
- 实践:复杂业务场景,技术创新
- 工具:Spark, 分布式训练框架
按职业方向
数据分析师
核心技能:SQL, Python, BI 工具,统计学
推荐资源:
- SQL: LeetCode, Mode Tutorial
- Python: 《利用 Python 进行数据分析》
- BI: Tableau/PowerBI 官方教程
- 统计:《统计学图鉴》《统计推断》
机器学习工程师
核心技能:ML 算法,深度学习,MLOps
推荐资源:
- 理论:《统计学习方法》CS229
- 实战:《Hands-On ML》
- 部署:MLOps 相关课程
- 工具:PyTorch, Scikit-learn, Docker
数据科学家
核心技能:统计建模,因果推断,实验设计
推荐资源:
- 统计:ESL, 《统计推断》
- 因果:《Causal Inference: The Mixtape》
- 实验:A/B Testing 课程
- 业务:《精益数据分析》
🔍 决策科学专题资源
核心理论
| 资源 |
类型 |
内容 |
| 决策方法论框架 |
专题文档 |
决策理论、行为经济学、分析成熟度模型 |
| 决策科学资源 |
专题文档 |
期望效用理论、前景理论、贝叶斯决策、启发式与偏差 |
| 决策工具模板 |
工具模板 |
SWOT、PESTEL、决策树、蒙特卡洛等 8 大工具 |
经典理论
- 期望效用理论 (von Neumann & Morgenstern, 1944)
- 前景理论 (Kahneman & Tversky, 1979)
- 双系统思维 (Kahneman, 2011)
- Knight 不确定性 (Knight, 1921)
推荐书籍
| 书名 |
作者 |
年份 |
主题 |
| 《思考,快与慢》 |
Daniel Kahneman |
2011 |
双系统思维理论 |
| 《Noise》 |
Kahneman et al. |
2021 |
决策中的噪音 |
| 《助推》 |
Thaler & Sunstein |
2008 |
行为经济学应用 |
| 《黑天鹅》 |
Nassim Taleb |
2007 |
极端不确定性 |
| 《Risk, Uncertainty and Profit》 |
Frank Knight |
1921 |
风险与不确定性 |
决策工具
- 定性分析: SWOT、PESTEL
- 定量分析: 决策树、蒙特卡洛模拟、AHP 层次分析
- 风险评估: 敏感性分析、情景规划
- 经济性评估: 成本效益分析
最后更新: 2026-06-01
维护说明: 本资源库会定期更新,如发现链接失效或有更好的资源,欢迎提交 Issue 或 Pull Request。