网络爬虫工具BeautifulSoup连载-1-基础知识与安装
爬虫概念:
编写程序,能够自动的获取网站上的数据。
 
BeautifulSoup简介:
BeautifulSoup是python的一个库,能够遍历整个网页,并能够从网页上获取数据。
 
官方对BeautifulSoup的说明:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
 
一 基础知识
BeautifulSoup文档的官网:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
可以在该官网上看中文版的文档说明,请点击官网上的下述链接,


二 BeautifulSoup的安装
如果官方文档上的安装方式适合你的话,请采用。下面我们介绍下Windows上的安装。

下载Beautifulsoup安装包,放置python的搜索路径下,
例,C:\Python27\Lib\site-packages
下载方法:直接搜索“Beautifulsoup 下载”。或直接到下面的网址下载,
https://pypi.python.org/pypi/beautifulsoup4




在命令行中切换至Beautifulsoup安装包的下载目录,直接执行,
pip install beautifulsoup4-4.6.0-py2-none-any.whl
显示:successfully installed…,即安装成功。

python的命令提示符中,导入Beautifulsoup来验证是否成功安装。
如下导入无错则表示成功安装。

 
相关课程
  • 高级软件测试课程

    ¥5000元173人学习

  • 软件测试就业班全栈课程

    ¥6000元166人学习

  • 友情链接
  • 唯美谷