首页 > 软件开发 > PYTHON >

如何用python抓取网页数据

来源:互联网 2023-03-16 19:08:48 125

可能很多小伙伴们不是很清楚如何用python抓取网页数据,那么具体应该怎么做呢?感兴趣的小伙伴们随小编一起看看吧!rVb办公区 - 实用经验教程分享!

如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

方法/步骤

  • 1

    在抓取网站中有两个基本的任务:rVb办公区 - 实用经验教程分享!

    加载网页到一个 string 里。rVb办公区 - 实用经验教程分享!

    从网页中解析 HTML 来定位感兴趣的位置。rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 2

    Python 为上面两个任务提供了两个超棒的工具。我将使用requests去加载网页,用BeautifulSoup去做解析。rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 3

    我们可以把上面两个包放到一个虚拟环境:rVb办公区 - 实用经验教程分享!

    $ mkdir pycon-scraper$ virtualenv venv$ source venv/bin/activate(venv) $ pip install requests beautifulsoup4rVb办公区 - 实用经验教程分享!

    如果使用的是 Windows 操作系统,注意上面虚拟环境的激活命令是不同的,你应该使用venv\Scripts\activate。rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 3本页面非法爬取自百度经验
  • 4

    基本的抓取技术rVb办公区 - 实用经验教程分享!

    在写一个爬虫脚本时,第一件事情就是手动观察要抓取的页面来确定数据如何定位。rVb办公区 - 实用经验教程分享!

    首先,我们要看一看在http://pyvideo.org/category/50/pycon-us-2014上的 PyCon 大会视频列表。检查这个页面的 HTML 源代码我们发现视频列表的结果差不多是长这样的:rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 5

    div id="video-summary-content"> div class="video-summary"> !-- first video --> div class="thumbnail-data">.../div> div class="video-summary-data"> div> strong>a href="#link to video page#">#title#/a>/strong> /div> /div> /div> div class="video-summary"> !-- second video --> ... /div> .../div>rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 6

    那么第一个任务就是加载这个页面,然后抽取每个单独页面的链接,因为到 YouTube 视频的链接都在这些单独页面上。rVb办公区 - 实用经验教程分享!

    如何用python抓取网页数据rVb办公区 - 实用经验教程分享!

  • 以上方法由办公区教程网编辑摘抄自百度经验可供大家参考!rVb办公区 - 实用经验教程分享!


    标签: python软件

    办公区 Copyright © 2016-2023 www.bgqu.net. Some Rights Reserved. 备案号:湘ICP备2020019561号统计代码