![Python机器学习(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/531/38458531/b_38458531.jpg)
1.5 将Python用于机器学习
Python是数据科学中最受欢迎的编程语言,这归功于Python语言有非常多优秀的开发人员,而且其开源社区为数据科学提供了大量有价值的软件库。
对计算密集型任务而言,尽管像Python这样的解释性编程语言的性能赶不上低级编程语言,但是在Fortran和C的基础上研发出的像NumPy和SciPy这样的扩展软件库,可以实现多维数组的快速向量化操作。
机器学习的编程主要用scikit-learn,这是目前最常用且方便使用的开源机器学习软件库。在后面的章节中,当我们关注被称为深度学习的机器学习子领域时,将使用新版本的TensorFlow软件库,利用图形卡,专门训练所谓的深度神经网络。
1.5.1 利用Python Package Index安装Python及其他软件包
Python可用于微软Windows、苹果macOS和开源Linux这三大操作系统,可以从Python官网https://www.python.org下载安装程序以及其相关的文档。
本书的内容可用于Python 3.7或更新的版本,我们建议读者使用可以获得的Python 3最新版本。尽管有些代码示例也可以与Python 2.7兼容,但是官方会停止对Python 2.7的支持,而且大多数的开源软件库已经停止对Python 2.7的支持(https://python3statement.org),因此,我们强烈建议读者使用Python 3.7或者更新的版本。
本书所用的其他软件包可以通过pip
程序安装,Python安装程序从Python 3.3起就一直是标准库的一部分。可以在https://docs.python.org/3/installing/index.html上发现更多关于pip
的信息。
在成功地安装了Python后,可以在终端上执行pip
命令来安装附加包:
![026-01](https://epubservercos.yuewen.com/CE1019/20240330708910706/epubprivate/OEBPS/Images/026-01.jpg?sign=1738795018-B7ddroRC1Mdv4SN7ikShu4w4UB19X32W-0-4763a7f079e94c46c8cb2e75e6f7086a)
对于已经安装过的软件包可以通过--upgrade
选项完成升级:
![026-02](https://epubservercos.yuewen.com/CE1019/20240330708910706/epubprivate/OEBPS/Images/026-02.jpg?sign=1738795018-1sjKdoz9MDLd2DgnOs4N3BJ8WBgpuaUx-0-287aced768ffed43ee44ee21efe6af61)
1.5.2 采用Anaconda Python发行版和软件包管理器
本书高度推荐由Continuum Analytics发行的Anaconda作为Python的科学计算软件包。免费的Anaconda既可用于商业,也可供企业使用。该软件包括数据科学、数学和工程在内的所有基本Python软件包,并把它们组合在对用户友好的跨平台版本中。可以从https://docs.anaconda.com/anaconda/install/网站下载Anaconda的安装程序,从https://docs.anaconda.com/anaconda/user-guide/getting-started/网站下载Anaconda的快速启动指南。
在成功地安装了Anaconda之后,可以执行下述命令安装其他Python软件包:
![027-01](https://epubservercos.yuewen.com/CE1019/20240330708910706/epubprivate/OEBPS/Images/027-01.jpg?sign=1738795018-00t3orQ2epxDg1nMH22hILZPI7TKXWP1-0-4fa792307f8ba2d1b59f4299f1e73ce8)
安装过的软件包可以通过执行下述命令升级:
![027-02](https://epubservercos.yuewen.com/CE1019/20240330708910706/epubprivate/OEBPS/Images/027-02.jpg?sign=1738795018-7Ax8jq9I6uoVMIlrpYQaOHsr83cYeWpV-0-01fc95d1dbc9802cac38078e6360c894)
1.5.3 用于科学计算、数据科学和机器学习的软件包
本书将主要使用NumPy的多维数组来存储和操作数据。偶尔也会用pandas库,该库建立在NumPy之上,可以提供额外的更高级的数据操作工具,使表格数据的操作更加方便。为了增强学习体验和可视化定量数据,我们将使用定制化程度非常高的Matplotlib软件库,这往往对直观地理解解决方案极有价值。
现将本书所用的主要Python软件包的版本号详列如下,请读者确保所安装软件包的版本不低于下述版本号,以确保代码示例可以正确运行:
- NumPy 1.17.4
- SciPy 1.3.1
- scikit-learn 0.22.0
- Matplotlib 3.1.0
- pandas 0.25.3