python爬虫-百度搜索结果爬取（一）

油油娇娇淑芬 · 发表于 2023-4-9 18:48:04

大家好，这次写个文章开始讲解爬虫的相关知识，主要包含，爬虫的简介，再就是带大家做一个简单的通用爬虫。
一、爬虫的简介

1.什么是爬虫

通过编程，模拟浏览器上网，然后让其去互联网上抓取数据的过程，我在一般都是用来爬取网上的数据玩，有时候也会用爬虫来下载图片。
2.爬虫中的矛与盾

反爬机制：门户网站通过制定响应的策略或者技术手段，防止爬虫程序进行网站数据爬取
反反爬机制：破解反爬机制
robots.txt协议：规定那些数据可以爬取，哪些不能爬取。

注意：数据不能乱爬吼，要遵循，robots.txt的协议哦[狗头]。
二、爬虫的分类

通用爬虫：抓取互联网中的一整张页面数据
聚焦爬虫：在通用爬虫的基础上，抓取页面中的特定的局部内容。
增量爬虫：检测网站中数据更新情况，只会抓取网站中最新更新出来的数据

三、通用爬虫之爬取百度搜索的页面

主要用的模块为requests，主要的流程如下图所示，我们以爬取百度搜索结果的爬虫为例来解释爬虫的运作过程。

1.获取初始的URL:
首先搜索“秦国”可以在地址栏找到地址：地址较长，我们可以截取前半部分就行，也就是下面这个地址，可以看出搜索内容就是秦国后面的内容。
https://www.baidu.com/s?wd=秦国

搜索内容

通过param来存储搜索内容，在发起请求的时候，requests会自动进行拼接。
# 定义url的地址
url = r&#39;https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&&#39;
# 定义搜索内容
kw = &#39;秦国&#39;
param = {
&#39;wd&#39;: kw
}2.获取请求头
User Agent中文名为用户代理，简称 UA，它使得服务器能够识别客户使用的操作系统及版本。可以通过在浏览器按住F12，然后点开网络，随便查询一个请求，找到消息头里的请求头，就可以获取用户代理了，这样就可以让爬虫伪装成浏览器进行访问。

如何获取用户代理

使用head请求头来伪装成浏览器，让服务器认为是浏览器,如下面代码所示：
# 伪装请求头
head = {
&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0&#39;}3.发起请求
使用requests的get方法发起请求，如下图所示，url使用上面的url，参数使用上面定义的param，请求头则使用head。
# 发起请求
response = requests.get(url=url, params=param, headers=head)4.获取请求内容并解析
使用response.test来获取响应的内容，然后存储起来，完整的程序，如下图所示，这样就可以把“秦国”这个搜索页面下载下来。有一个名为“秦国.html”的文件，就证明你的程序运行成功了。
import requests

if __name__ == &#34;__main__&#34;:
# 定义url的地址
url = r&#39;https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&&#39;
# 定义搜索内容
kw = &#39;秦国&#39;
param = {
      &#39;wd&#39;: kw
}
# 伪装请求头
head = {
      &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0&#39;}
# 发起请求
response = requests.get(url=url, params=param, headers=head)
# 获取请求结果
result = response.text
# 定义储存结果的文件名
filename = kw+&#39;.html&#39;
# 存储文件
with open(filename, &#39;w&#39;, encoding=&#39;utf-8&#39;) as tem:
      tem.write(result)
print(filename, &#39;保存成功&#39;)
关于通用爬虫的内容就介绍到这里，如果你想了解更多的关于python的内容，可以参考我下面的这两篇回答，里面也有部分关于爬虫的内容哦：

上善伐谋先伐心 · 发表于 2023-4-9 18:48:40

大佬，请问一下，我爬出来是乱码为什么啊？

任蛟龙 · 发表于 2023-4-9 18:49:09

你在这个位置加一句print(response.encoding)，看看网页的编码类型是啥，然后把后面文件的解码类型改成这个格式，就OK了
[图片]

方思向 · 发表于 2023-4-9 18:49:16

爬不了几次就被封掉了

萝卜坑 · 发表于 2023-4-9 18:50:11

其实按百度的robots协议，他家的东西一个都不能爬。。。

那年那月那时的我 · 发表于 2023-4-9 18:51:08

可以参考：https://www.zhihu.com/pin/1491768536188485632

不爱听辣妹子辣的鲁迅种子 · 发表于 2023-4-9 18:51:19

能不能爬出百度搜索页后的结果,然后模拟点击动作,再进一步下载里面的文章呢

严昌飞 · 发表于 2023-4-9 18:52:03

如何大量抓取关键词搜索结果叻？目前上线一个月更新二次请求参数了。还是被反爬了。一次参数更新起效14天左右。

丁路豹 · 发表于 2023-4-9 18:52:39

遇到同样问题，想问大佬，最后解决了吗？

阿酒 · 发表于 2023-4-9 18:53:11

解决了。动态UA、动态Cookie、降低抓取频率、频次。

python爬虫-百度搜索结果爬取（一）

浏览过的版块