【爬虫】二、Requests入门及高阶
创始人
2025-05-29 23:32:41
0

1、requests入门

安装requests:pip install requests

1.1 用User-Agent字典写入headers处理反爬

import requests# 1.get拼接方式# query = input("please input ")
# url = f'https://www.sogou.com/web?query={query}'url = 'https://www.sogou.com/web?query=周杰伦'
headersDic = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}  #字典resp = requests.get(url,headers=headersDic)   #headers为反爬处理print(resp)   #返回200表示成功
print(resp.text)   #取页面源代码

1.2 post方式

#2.post拼接方式
url = "https://fanyi.baidu.com/sug"
s = input("please input ")
data = {"kw":s}resp = requests.post(url,data=data)
print(resp.json())

1.3 设置param和userAgent处理反爬

#3.存在反爬机制的情况# 解决:设置userAgenturl = "douban电影top的地址"
param = {"type": "11","interval_id": "100:90","action": "","start": 0,"limit": 20,
}
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}resp = requests.get(url=url,params=param,headers=header)
print(resp.json())
resp.close()  #关掉resp,否则请求次数过多会报错

2、requests高阶

2.1 模拟浏览器登录(处理cookie)

Cookie,它是客户端浏览器用来保存服务端数据的一种机制。
当通过浏览器进行网页访问的时候,服务器可以把某一些状态数据以 key-value的方式写入到 Cookie 里面存储到客户端浏览器。然后客户端下一次再访问服务器的时候,就可以携带这些状态数据发送到服务器端,服务端可以根据 Cookie 里面携带的内容来识别使用者。

Session 表示一个会话,它是属于服务器端的容器对象。
默认情况下,针对每一个浏览器的请求,Servlet 容器都会分配一个 Session。Session 本质上是一个 ConcurrentHashMap,可以存储当前会话产生的一些状态数据。

Cookie与Session之前的联系:
Http 协议本身是一个无状态协议,也就是服务器并不知道客户端发送过来的多次请求是属于同一个用户。Session 是用来弥补 Http 无状态的不足,简单来说,服务器端可以利用session 来存储客户端在同一个会话里面的多次请求记录。基于服务端的 session 存储机制,再结合客户端的 Cookie 机制,就可以实现有状态的 Http 协议。
cookie存储是有效期,当客户端存储的cookie失效后,服务端的session不会立即销毁,会有一个延时,服务端会定期清理无效session,不会造成无效数据占用存储空间的问题。
在这里插入图片描述
(1)客户端第一次访问服务端的时候,服务端会针对这次请求创建一个会话,并生成一个唯一的 sessionID 来标注这个会话。
(2)然后服务端把这个 sessionID 写入到客户端浏览器的 cookie 里面,用来实现客户端状态的保存。
(3)在后续的请求里面,每次都会携带sessionID,服务器端就可以根据这个sessionID 来识别当前的会话状态。
总的来说,Cookie 是客户端的存储机制,Session 是服务端的存储机制。

1.登录 -> 找cookie
2.带cookie去请求书架url -> 获得书架的内容需要把上述两操作连起来
方法:使用session进行请求,session是会话,过程中cookie不会丢失

例子:爬取17K小说网的书架

import requests#新建会话
session = requests.session()# data = {
#     "loginName":"自己的用户名",
#     "password":"自己的密码"
# }    #因为data被隐藏,所以直接用cookie登录去看书架
headers = {"Cookie": "cookie里的内容"
}# 登录+从书架上拿数据
url = "书架部分登录的url"   #书架url
# resp = session.post(url,data=data)
resp = session.get(url,headers=headers)
resp.encoding = "utf-8"
print(resp.text)

2.2 防盗链处理

存在以下情况进行防盗链处理:
1.页面标签通过js写入。
2.标签中的src与抓包的XHR中的srcurl存在一部分不同。
3.有referer,进行溯源,找上一级(即找请求的上一级)。(防盗链的本质)
例子:下载视频

import requests# 爬视频
# 处理防盗链:1->2->3,若2丢失则找不到3
# 所以1为videoStatusUrl,2为url也就是Referer,3为videoUrl也就是视频下载地址
# 对1的videoStatus的视频抓包地址进行拼接可以得到3url = "视频打开的网页地址"
videoStatusUrl = "视频的Status地址"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36","Cookie": "cookie里的内容","Referer": url   #防盗链,即videoStatusUrl的上一级
}# resp = requests.get(url)
videoResp = requests.get(videoStatusUrl,headers=headers)# 把爬取的videoStatus转为json再根据json对象取视频的url
videoUrl = videoResp.json()["videoInfo"]["videos"]["srcUrl"]
#替换字符
oldStr = videoResp.json()["systemTime"]
newStr = url.split("_")[1]
videoUrl = videoUrl.replace(oldStr,"cont-"+newStr)
videoResp.close()#下载视频,写入文件
result = requests.get(videoUrl)with open("attachment/%s.mp4"%newStr,"wb") as f:f.write(result.content)result.close()
f.close()

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...