类别:Python / 日期:2019-12-02 / 浏览:94 / 评论:0

昨天下班后遽然鼓起想写一个爬虫抓抓网页上的东西。花了一个钟简朴进修了python的基本语法,然后参照网上的例子本身写了个爬虫。 (引荐进修:Python视频教程)

python数据爬下来保留在当地,平常是文件或数据库中,然则文件情势比拟要越发简朴,假如只是本身写爬虫玩,能够用文件情势来保留数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块供应了读取web页面数据的接口,我们能够像读取当地文件一样读取www和ftp上的数据
urlopen 要领用来翻开一个url
read要领 用于读取Url上的数据
'''
 
def getHtml(url):
    page = urllib.request.urlopen(url);
    html = page.read();
    return html;
 
def getImg(html):
    imglist = re.findall('img src="(http.*?)"',html)
    return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
    os.mkdir("D:/imags");
    
count = 0;
for url in imagesUrl:
    print(url)
    if(url.find('.') != -1):
        name = url[url.find('.',len(url) - 5):];
        bytes = urllib.request.urlopen(url);
        f = open("D:/imags/"+str(count)+name, 'wb');
        f.write(bytes.read());
        f.flush();
        f.close();
        count+=1;

经测试,基本功能照样能够完成的。花的较多的时刻就是正则婚配那里,由于本身对正则表达式也不是异常熟习。所以照样花了点时刻。

注:上面的顺序基于 python 3.5。python3 和 python2 照样有些区分的。我刚开始看基本语法的时刻就栽了一些坑里。

以上就是python数据爬下来保留在那里的细致内容,更多请关注ki4网别的相干文章!

打赏

感谢您的赞助~

打开支付宝扫一扫,即可进行扫码打赏哦~

版权声明 : 本文未使用任何知识共享协议授权,您可以任何形式自由转载或使用。

 可能感兴趣的文章

评论区

发表评论 / 取消回复

必填

选填

选填

◎欢迎讨论,请在这里发表您的看法及观点。