Skip to content

Latest commit

 

History

History
185 lines (93 loc) · 9.93 KB

3523.md

File metadata and controls

185 lines (93 loc) · 9.93 KB

50+ 数据科学和机器学习备忘单

原文

c 评论备忘单 数据科学 机器学习 Python R hadoop

关于 Python、R 以及 Numpy、Scipy、Pandas 的备忘单

在数据科学领域,有成千上万的包和数百个函数!一个有抱负的数据爱好者不需要了解所有内容。这里是经过头脑风暴并浓缩在几页中的最重要的备忘单。

精通数据科学涉及理解统计学、数学、编程知识,特别是在 R、Python 和 SQL 方面,然后将这些知识组合起来,通过业务理解和人类直觉来推导见解,从而驱动决策。

这里是按类别整理的备忘单:

Python 备忘单:

Python 是初学者的热门选择,同时也足够强大,能够支持一些全球最受欢迎的产品和应用。它的设计使编程体验几乎像用英语写作一样自然。Python 基础或 Python 调试器备忘单为初学者覆盖了开始时重要的语法。社区提供的库如 numpy、scipy、sci-kit 和 pandas 被广泛依赖,而 NumPy/SciPy/Pandas 备忘单提供了对这些库的快速回顾。

R 备忘单:

R 的生态系统扩展得如此之多,以至于需要大量参考。R 参考卡在几页中覆盖了大部分 R 世界。Rstudio 也发布了一系列备忘单,方便 R 社区使用。数据可视化与 ggplot2 似乎特别受欢迎,因为它有助于你在创建结果图表时。

MySQL 和 SQL 备忘单:

对于数据科学家来说,SQL 的基础知识和其他语言一样重要。PIG 和 Hive 查询语言都与 SQL(原始结构化查询语言)紧密相关。SQL 备忘单提供了一个 5 分钟的快速指南,让你学习它,然后你可以探索 Hive 和 MySQL!

Spark 备忘单:

Apache Spark 是一个用于大规模数据处理的引擎。对于某些应用场景,如迭代机器学习,Spark 的速度可以比 Hadoop(使用 MapReduce)快多达 100 倍。Apache Spark 备忘单解释了其在大数据生态系统中的位置,讲解了基本 Spark 应用的设置和创建,并解释了常用的操作和操作。

Hadoop 和 Hive 速查表:

Hadoop 作为一种非传统工具出现,它提供了一个开源软件框架,用于并行处理大量数据,解决了被认为不可解决的问题。探索 Hadoop 速查表,了解在命令行中使用 Hadoop 时的有用命令。SQL 和 Hive 函数的组合是另一个值得查看的速查表。

机器学习速查表:

我们常常花时间思考哪种算法最好?然后再翻回大部头的书籍进行参考!这些速查表给出了关于数据的性质和你正在解决的问题的想法,并建议你尝试一种算法。

Django 速查表:

Django 是一个免费的开源 web 应用框架,用 Python 编写。如果你是 Django 新手,你可以查看这些速查表,快速了解概念,并深入学习每一个概念。

分享更多 & 学习!我们遗漏了什么吗?在评论中添加你最喜欢的备忘单吧!

相关:

  • 数据科学备忘单指南

  • 按人气排名前 20 的 R 包

  • 大数据与 Hadoop 中最具影响力的 150 人

更多相关内容