普大帝 发表于 2022-11-8 19:54

2022新书用Python和PySpark进行数据分析

电子书下载
本书教你如何使用PySpark来进行你自己的大数据分析程序。它以实用的姿态教授PySpark的方法和原因。你将学习如何有效地摄取、处理和处理大规模的数据,以及如何推理你自己的数据转换代码。读完本书后,你应该对使用PySpark来编写你自己的数据程序和分析感到轻松。

使用 Python 和 PySpark 进行数据分析是你交付成功的 Python 驱动数据项目的指南。这本实用的书包含相关示例和基本技术,教你为报告、机器学习和其他以数据为中心的任务构建管道。每章中的快速练习可帮助你练习所学知识,并快速开始将 PySpark 实施到你的数据系统中。不需要以前的 Spark 知识。本书适用对象本书围绕越来越复杂的用例展开,从简单的数据转换到机器学习管道。我们涵盖了整个周期,从数据摄取到结果消费,在数据源消费和转换可能性方面增加了更多的元素。本书主要面向数据分析师、科学家和工程师,他们希望将他们的Python代码扩展到更大的数据集。理想情况下,你应该写过一些数据程序,无论是通过你的工作还是在学习编程时。如果你已经能够自如地使用Python编程语言和生态系统,你会从本书中得到更多。Spark(和PySpark)从面向对象和函数式编程中借鉴了很多。我认为,仅仅为了有效地使用大数据而期望完全掌握这两种编程范式是不合理的。如果你了解Python类、装饰器和高阶函数,你将会很高兴地使用书中的一些更高级的结构来使PySpark适应你的意愿。如果这些概念 如果这些概念对你来说是陌生的,我将在整个书中(适当的时候)和附录中结合PySpark的背景来介绍它们。你会学到什么
[*]管理跨多台机器
[*]扩展的数据 满怀信心地扩展你的数据程序
[*]从各种来源和格式读取和写入数据
[*]使用 PySpark 的数据处理杂乱的数据操作功能
[*]发现新数据集并执行探索性数据分析
[*]构建自动化数据管道,以转换、汇总数据并从数据中获取洞察力
[*]解决常见 PySpark 错误
[*]创建可靠的长期运行作业
关于《使用 Python 和 PySpark 进行数据分析》一书可帮助你使用 PySpark 解决数据科学的日常挑战。你将学习如何在多台机器上扩展你的处理能力,同时从任何来源(无论是 Hadoop 集群、云数据存储还是本地数据文件)摄取数据。了解基础知识后你将通过构建机器学习管道以及混合 Python、pandas 和 PySpark 代码来探索 PySpark 的全部功能。
目录本书分为三个部分。第一部分,"认识", 介绍了PySpark和它的计算模型。它还包括建立和提交一个简单的数据程序,重点是你肯定会在你创建的每个PySpark程序中使用的核心操作,如选择、过滤、连接和数据框架中的分组。第二部分,"精通", 通过介绍PySpark中可扩展数据程序的关键元素--分层数据,进一步了解数据转换。我们还通过明智地引入SQL代码,探索有弹性的分布式数据集/用户定义的函数,在PySpark中有效地使用pandas和窗口函数,使我们的程序更具表现力、灵活性和性能。我们还探讨了Spark的报告功能和资源管理,以确定潜在的性能问题。第三部分,"自信", 建立在第一和第二部分的基础上,涵盖了如何在PySpark中建立一个机器学习程序。在构建和评估机器学习管道之前,我们使用我们的数据转换工具箱来创建和选择特征。在这一部分的最后,我们创建自己的机器学习管道组件,确保我们的ML程序具有最大的可用性和可读性。第1和第2部分在各章中都有练习,在各章的末尾也有。一节末尾的练习不需要你写代码;你应该能够用你所学的知识来回答问题。本书的写作思路是从头到尾阅读,根据需要使用附录。如果你想直接阅读某个主题,我仍然建议在深入阅读某个具体章节之前先阅读第一部分。以下是硬性和软性的依赖关系,以帮助你更有效地浏览本书。
[*]第3章是第2章的直接延续。
[*]第5章是第4章的直接延续。
[*]第9章使用了第8章教授的一些概念,但高级读者可以独立阅读。
[*]第12章、第13章和第14章最好一个接一个地读。


页: [1]
查看完整版本: 2022新书用Python和PySpark进行数据分析