博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python-实现根据关键词获取网页内容
阅读量:3770 次
发布时间:2019-05-22

本文共 1520 字,大约阅读时间需要 5 分钟。

一、项目介绍

获取TB网页的一些信息(仅进行教育目的)

比如我们要通过关键字获取TB界面上的一些信息。
通过确认可以发现请求为:

https://s.taobao.com/search?q=书包&s=0    #q代表关键字,显示第一页https://s.taobao.com/search?q=书包&s=44   #显示第二页,每一个44个

结构设计:

  • 提交商品请求,循环获取页面。
  • 对于每个页面,提取商品名称和价格信息。
  • 将信息输出到屏幕上。

二、获取解析

使用的解析方法有多种,一种使用BeatifulSoup库,一种使用正则表达式直接匹配出来。我们这里使用正则表达式。

通过查看源码可以看到,view_price和raw_title标签是我们需要的内容。
在这里插入图片描述

三、源码

# 已失效,需要登录import requestsimport redef getHTMLText(url):    try:        r = requests.get(url, timeout = 30)        r.raise_for_status()        r.encoding = r.apparent_encoding  #防止中文乱码        print(r.text)        return r.text    except:        return ""def parsePage(ilt, html):    try:        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)        tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)        for i in range(len(plt)):            price = eval(plt[i].split(':')[1])            title = eval(tlt[i].split(':')[1])            ilt.append([price, title])    except:        print("")  def printGoodsList(ilt):    print(ilt)    tplt = "{:4}\t{:8}\t{:16}"    print(tplt.format("序号", "价格", "商品名称"))    count = 0    for g in ilt:        count = coount +1        print(tplt.format(count, g[0], g[1]))def main():    goods = '书包'    depth = 1 #搜索两页,每页44个商品    start_url = 'https://s.taobao.com/search?q=' + goods    infoList = []    for i in range(depth):        try:            url = start_url + '&s=' + str(44*i)            print(url)            html = getHTMLText(url)            parsePage(infoList, html)        except:            continue    printGoodsList(infoList)main()

转载地址:http://guhpn.baihongyu.com/

你可能感兴趣的文章
Jmeter:使用BeanShell
查看>>
Jmeter测试:JDBC请求
查看>>
性能测试:瓶颈定位思路
查看>>
接口测试验证的五个阶段
查看>>
性能分析报告
查看>>
简介:接口测试的分类、工具和接口测试应该测什么
查看>>
Compatibility Testing
查看>>
web测试方法总结
查看>>
RUP(Rational Unified Process, Rational统一过程, 统一软件开发过程)的测试分类
查看>>
Fiddler中response乱码的解决方案
查看>>
图形用户界面( GUI )基本测试内容
查看>>
WEB功能测试方法
查看>>
Web常用功能测试总结
查看>>
测试杯子(微软的一个软件测试面试题目)
查看>>
软件测试:电商类应用的smoke测试流程
查看>>
软件测试:购买商品类测试不可忽略的问题
查看>>
小测试点积累
查看>>
Jmeter特殊情况一:登录请求中密码加密的情况
查看>>
JMeter特殊情况二:针对某些请求数据每次请求都是变化的情况
查看>>
web网站响应时间的评判标准
查看>>