mazhaohai的个人博客分享 http://blog.sciencenet.cn/u/mazhaohai

博文

[转载] python 作业 上海交通大学 期末大作业

已有 2300 次阅读 2013-4-18 09:51 |个人分类:Python|系统分类:博客资讯|文章来源:转载

从http://lishi.tianqi.com/beijing/index.html网站上通过爬虫

把北京2011年1月-至今的天气数据爬下来,




import pandas

import requests

from bs4 import BeautifulSoup


head={ }

url='http://lishi.tianqi.com/beijing/index.html'   # 网址  

html=requests.get(url,headers=head)

bs=BeautifulSoup(html.content,'lxml')

alink=bs.find('div',class_="tqtongji1").find_all('a')                

weathers=list()

index=1

headers=list()  

for i in alink:

   url0=i['href']

   html0=requests.get(url0,headers=head)

   bs0=BeautifulSoup(html0.content,'lxml')

   wea=bs0.find('div',class_="tqtongji2").find_all('ul',class_="")

   while index:

       hea=bs0.find('div',class_="tqtongji2").find('ul',class_="t1").find_all('li')

       for i in hea:

           headers.append(list(i)[0])

       index=index-1

   for j in wea:

       wea1=j.find_all('li')

       weather=list()                                                

       for k in wea1:

           if 'a' in str(k):

               wea2=list(k.find('a'))[0]

           elif len(list(k))==0:

               wea2=' '

           else:

               wea2=list(k)[0]

           weather.append(wea2)

       weathers.append(weather)                        

data=pandas.DataFrame(weathers,columns=headers)

data.to_excel('Weather.xlsx',index=False)




http://blog.sciencenet.cn/blog-901783-681339.html

上一篇:[转载]2012中科院高等代数
下一篇:[转载] python 作业 上海交通大学 期末大作业

0

该博文允许实名用户评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-21 13:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部