autodataming的个人博客分享 http://blog.sciencenet.cn/u/autodataming

博文

phantomjs自动保存文件

已有 2775 次阅读 2017-5-5 16:23 |系统分类:科研笔记

自动爬取SPECS化合物库中所有的化合物文件,mol格式的文件。

下一步获得SPECS中化合物的cas号做准备。

```perl


#!python27
#coding: utf-8

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import time
import requests

dcap = dict(DesiredCapabilities.PHANTOMJS)  #设置userAgent
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ")
driver = webdriver.PhantomJS(executable_path='d:Python27Scriptsphantomjs.exe',desired_capabilities=dcap) #加载网址
driver.maximize_window() # 浏览器全屏显示


driver.set_page_load_timeout(15)  #设置页面完全加载的超时时间



#  LOGIN SUCCESS
try:
   driver.get("http://www.specs.net")
   user_elem=driver.find_element_by_xpath('//form[@name="loginform"]/table/tbody/tr[3]/td[2]/input')
   driver.save_screenshot('1.png')
   user_elem.send_keys(u'zqchen')
   driver.save_screenshot('2.png')
   pwd_elem=driver.find_element_by_xpath('//form[@name="loginform"]/table/tbody/tr[4]/td[2]/input')
   pwd_elem.send_keys(u"wlj45s")
   driver.save_screenshot('3.png')
   login_elem=driver.find_element_by_xpath('//form[@name="loginform"]/table/tbody/tr[5]/td[2]/input')
   login_elem.click()
   time.sleep(3)
   
   print driver.title
   
   
   driver.save_screenshot('4.png')
   print "login success"
except Exception as e:
   print e
   
   
#    GET MOL FILES

download_link="https://www.specs.net/mol.php?structureId=AA-173/40757587"

session = requests.Session()
cookies = driver.get_cookies()
for cookie in cookies:
   session.cookies.set(cookie['name'], cookie['value'])
response = session.get(download_link)

print response.content



```




https://blog.sciencenet.cn/blog-950202-1053176.html

上一篇:第三方客户端登陆qq邮箱
下一篇:python 列表扁平化
收藏 IP: 202.127.19.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-27 11:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部