用友客开

python爬虫

时间:2022-10-12 20:12:24   作者:五块二   来源:转载   阅读:3   评论:0

1 导入url模块

from urllib.request import urlopen

2 打开url

指定url
url = "http://www.baidu.com"
webpage_request = urlopen(url)

3 解码
print(webpage_request.read().decode("utf-8"))



数据解析

1 re解析(正则表达式)

导入re模块

import re

list = re.findall(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(result)


匹配的是字符中所有的内容,返回的是迭代器,从迭代器拿到内容需要用.group()
it = re.finditer(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")

for i in it:
print(i.group())

 

# search,匹配到一个结果直接返回,拿到数据需要用.group()

yz = re.search(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(yz.group())

# match 从头开始匹配
rr = re.match(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(rr.group())

正则表达式预加载

 

 

 

 

 

 

说明:strip的作用去除前面的空格,顶格显示

 

 

 

 

 

 

 

2 bs4解析 (beautifulsoup模块)

这个模块只有两个函数  find   findall

 

 

 

 

 

爬取图片

 

 

 

 

 

 

 

 

 


3 xpath解析

 

 

转自:https://www.cnblogs.com/yanzi2020/p/16710789.html

 

1、官方公众号:尘果科技
2、本站地址:www.5kuai2.com

3、资源部分来源于网络,如有侵权,请联系QQ827566124进行删除处理。



                                          

                                      
                 

相关评论
阅读排行
栖霞区尘果科技工作室版权所有  苏ICP备2022021227号-1