类别:Python / 日期:2019-12-02 / 浏览:94 / 评论:0

昨天下班后遽然鼓起想写一个爬虫抓抓网页上的东西。花了一个钟简朴进修了python的基本语法,然后参照网上的例子本身写了个爬虫。 (引荐进修:Python视频教程)
python数据爬下来保留在当地,平常是文件或数据库中,然则文件情势比拟要越发简朴,假如只是本身写爬虫玩,能够用文件情势来保留数据。
#coding=utf-8 import urllib.request import re import os ''' Urllib 模块供应了读取web页面数据的接口,我们能够像读取当地文件一样读取www和ftp上的数据 urlopen 要领用来翻开一个url read要领 用于读取Url上的数据 ''' def getHtml(url): page = urllib.request.urlopen(url); html = page.read(); return html; def getImg(html): imglist = re.findall('img src="(http.*?)"',html) return imglist html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8"); imagesUrl = getImg(html); if os.path.exists("D:/imags") == False: os.mkdir("D:/imags"); count = 0; for url in imagesUrl: print(url) if(url.find('.') != -1): name = url[url.find('.',len(url) - 5):]; bytes = urllib.request.urlopen(url); f = open("D:/imags/"+str(count)+name, 'wb'); f.write(bytes.read()); f.flush(); f.close(); count+=1;
经测试,基本功能照样能够完成的。花的较多的时刻就是正则婚配那里,由于本身对正则表达式也不是异常熟习。所以照样花了点时刻。
注:上面的顺序基于 python 3.5。python3 和 python2 照样有些区分的。我刚开始看基本语法的时刻就栽了一些坑里。
以上就是python数据爬下来保留在那里的细致内容,更多请关注ki4网别的相干文章!
发表评论 / 取消回复