脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - python异步爬虫之多线程

python异步爬虫之多线程

2022-09-16 11:23阿南-anan Python

这篇文章主要介绍了python异步爬虫之多线程,多线程可以为相关阻塞的操作单独开启线程或者进程,阻塞操作可以异步执行,但是无法无限制开启多线程或多进程,下面我们一起学习详细内容,需要的朋友可以参考一下

多线程,多进程(不建议使用)
优点:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作可以异步执行
弊端:无法无限制开启多线程或多进程。
原则:线程池处理的是阻塞且耗时的操作

单线爬虫示例:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import time
 
def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print('下载成功:',str)
 
name_list = ['aa','bb','cc','dd']
 
start_time = time.time()
 
for i in range(len(name_list)):
    get_page(name_list[i])
end_time = time.time()
print('%d second'% (end_time-start_time))

python异步爬虫之多线程

多线程爬虫示例:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import time
# 导入线程池模块对应的类
from multiprocessing.dummy import Pool
 
start_time = time.time()
def get_page(str):
    print("正在下载:",str)
    time.sleep(2)
    print('下载成功:',str)
 
name_list = ['aa','bb','cc','dd']
 
# 实例化一个线程池对象
pool = Pool(4)
# 将列表中每一个列表元素传递给get_page进行处理
pool.map(get_page,name_list)
 
end_time = time.time()
print(end_time-start_time)

python异步爬虫之多线程

案例:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
# 多线爬虫示例
import requests
from lxml import etree
import re
from multiprocessing.dummy import Pool
 
headers = {
    'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',
    'Content-type':'application/json',
}
# 对下述url发起请求解析出视频详情页的url和视频的名称
url = "https://pearvideo.com/category_5"
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@id="listvideoListUl"]/li')
urls = [] #存储所有视频的链接
for li in li_list:
    detail_url = 'https://pearvideo.com/' + li.xpath('./div/a/@href')[0]
    name = li.xpath('./div/a/div[2]/text()')[0]+'.mp4'
    # 对详情页的url发起请求
    detail_page_text = requests.get(url=detail_url,headers=headers).text
    # print(detail_url,name)
    # 从详情页中解析出视频的地址(url)
    id = re.findall(r'\d+', detail_url)[0]
#     https://pearvideo.com/videoStatus.jsp?contId=1751458&mrd=0.32392817067398805
    detail_vedio_url = 'https://pearvideo.com/videoStatus.jsp?contId='+id
 
    header1s = {
        'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',
        'Content-type': 'application/json',
        'referer':detail_url
    }
    vedio_text = requests.get(url=detail_vedio_url,headers=header1s).json()
    # print(vedio_text)
    vedio_url = vedio_text['videoInfo']['videos']['srcUrl']
    dic = {
        'name': name,
        'url': vedio_url
    }
    urls.append(dic)
    print(vedio_url)
def get_video_data(dic):
    url = dic['url']
    print(dic['name'],'正在下载......')
    data = requests.get(url=url,headers=header1s).content
#   持久化存储操作
    with open(dic['name'],'wb') as fp:
        fp.write(data)
        print(dic['name'],'下载成功')
# 使用线程池对视频数据进行请求(较为耗时的阻塞操作)
pool = Pool(4)
pool.map(get_video_data,urls)
 
pool.close()
pool.join()

到此这篇关于python异步爬虫之多线程的文章就介绍到这了,更多相关python爬虫多线程内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/weixin_42380348/article/details/122849567

延伸 · 阅读

精彩推荐
  • Pythonpython中re模块知识点总结

    python中re模块知识点总结

    在本篇文章里小编给大家整理的是一篇关于python中re模块知识点总结内容,有兴趣的朋友们可以学习下。...

    Elite-Wang6232021-08-26
  • Pythonlinux安装Python3.4.2的操作方法

    linux安装Python3.4.2的操作方法

    这篇文章主要介绍了linux安装Python3.4.2的操作方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下...

    羽恒12462021-04-05
  • PythonPython接单的过程记录分享

    Python接单的过程记录分享

    这篇文章主要介绍了Python接单的过程记录分享,需要的朋友可以参考下...

    hhh_Moon_hhh7922021-10-21
  • Pythonpython统计文本字符串里单词出现频率的方法

    python统计文本字符串里单词出现频率的方法

    这篇文章主要介绍了python统计文本字符串里单词出现频率的方法,涉及Python字符串操作的相关技巧,需要的朋友可以参考下 ...

    依山带水12522020-07-08
  • Python浅析Python函数的参数

    浅析Python函数的参数

    Python的函数定义非常简单,但灵活度却非常大。除了正常定义的必选参数外,还可以使用默认参数、可变参数和关键字参数,使得函数定义出来的接口,不...

    Go语言进阶学习4112021-03-03
  • Pythonpandas抽取行列数据的几种方法

    pandas抽取行列数据的几种方法

    这篇文章主要介绍了pandas抽取行列数据的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下...

    北木6472021-08-13
  • PythonPython闭包之返回函数的函数用法示例

    Python闭包之返回函数的函数用法示例

    这篇文章主要介绍了 Python闭包之返回函数的函数用法示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    滴滴答答要努力10662021-01-09
  • Python详解使用Python处理文件目录的相关方法

    详解使用Python处理文件目录的相关方法

    这篇文章主要介绍了使用Python处理文件目录的相关方法,使用到了os模块,需要的朋友可以参考下 ...

    999abcd2302020-08-01