淘优惠

淘优惠

python selenium获取接口数据 python chrome

热门文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录。一共是三篇博客,记录了我爬取淘宝网的经历。期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多,直接加载用户配置又很笨重,效率低下。所以这次尝试构造post请求表单,模拟登录。

github源码链接:

先把淘宝网的cookies全部清除,然后访问淘宝,这时候是不需要登录的。

在搜索框搜索iphone,立即跳出了登录页面,它的url是:%26imgfile%3D%26commend%3Dall%26ssid%3Ds5-e%26search_type%3Ditem%26sourceId%3Dtb.index%26spm%3Da21bo.2017.201856-【【微信】】.1%26ie%3Dutf8%26initiative_id%3【【微信】】【【QQ微信】】&uuid=【【微信】】336683【【微信】】

很长很长,但标红的这部分url很重要,是重定向url,登录后会跳转到这个url,当然这个是经过url编码的。

其余后面的参数很乱,不知道有用没用,先试一下,把后面的参数去掉,访问看看能不能行:

可以进入登录页面,那能不能登录呢?

好,正如上面所说,跳转到了这个url。

既然可行,那么接着再来一次,这次看看这个过程都发起了哪些请求,提交了哪些数据。()

可以使用浏览器开发者模式也可以使用抓包工具【【微信】】,使用浏览器的话要打开Preserve log

我用的是【【微信】】

设置抓取的User-Agents为Chrome

直接访问:

点击登录。查看请求记录。

这是两个非常重要的url

第一个是最开始访问的登录页面,一个普通的get请求,第二个就不同了,它是一个post请求,其中表单包含了大量的数据信息

内容虽然很多,但经过我多次的测试和比对后,发现了如下几条规律:

1、loginId一眼就可以看出是账号,ua猜测为一种加密后的用户标识,password2猜测为加密后的密码。

2、_csrf_token, umidToken, hsiz隐藏在登录页面里

3、其他的都是不变的

文件名为login.py,类名为Login

ua, loginId, password2这三个是用户信息,传递这三个参数以初始化Login类。PRODUCT是一个全局变量,代表着商品名,在setting.py里可以设置这个变量。如果商品名带有中文,则需要用urllib.parse.quote()进行url编码。

logged函数

为了方便登录,每次登录成功后都会自动保存cookies,所以在登录之前都先要判断是否存在cookies,cookies是否正确等问题。如果上述条件都不成立的话,则重新登录,重新保存cookies。模拟登录最重要的就是执行post请求,而执行post请求就要构造好一个正确的post字典,对于_csrf_token, umidToken, hsiz这三条数据,可以去登录页面提取

这个提取过程主要依靠这两个函数:

使用Python的@property装饰器,访问内部属性。它相当于又创造了一个和函数名相同的一个属性。调用此函数即调用此属性,有点像Java里的get方法。由于_csrf_token, umidToken, hsiz这三个字段都有一个共同点,都可以通过上面的正则表达式匹配到,所以可以归结为一个函数,不用写三个函数。

表单构造完后,发起post请求,SESSION是一个全局会话,登录和爬取都是一个会话,方便处理cookies。

请求没有问题后,调用【【微信】】(),立即保存cookies

之后有一个self.redirect_url,对重定向url的再次赋值,这个主要是检查是否会出现滑块验证。只有在连续多次相同ip登录的时候才会跳转到滑块验证,这时候如果还是访问原先的url,它也会跳转,所以加不加都行。

如果登录成功了,可以输出一下当前的网页标题来验证一下

TitleErrors是个自定义异常,用来捕捉标题错误。出现滑块验证时候的标题为:这个时候要等待一会才能登录成功 这个抛出异常分为两种情况,如果是加载cookies失败,则重新登录,如果是登录失败,则退出程序,这是在load_cookies()函数内实现的

加载cookies首先要将保存的cookies取出来

根据load_cookies()的返回值判断是否不需要登录。

这就是整个登录的流程,本来很简单的被我这么一说反而变复杂了。再概括一下整个流程吧,首先一上来先加载cookies,如果没有cookies文件,或者加载cookies失败,则再登录一遍并保存cookies,输出当前页面标题,符合条件则登录成功,不符合则失败退出程序。

借助全局的SESSION来处理cookies,就可以实现连续翻页,访问详情页面的操作。当然详情页面的爬取还有带开发,先爬取商品列表。

这是前五页的url,虽然参数很多,但也能窥探到其中的规律。

bcoffset和ntoffset判断为偏移量,。s判断为已观看的商品数,

等一下,第三页的两个偏移量不相等啊?先别急,访问归我纳出的url试一下:

很好,根据上述归纳,把代码写下来:

PRODUCT前面说过了,是商品名。

因为毕竟这不是一个小项目,淘宝的反爬也是非常厉害,所以按照可以添加代理的方式编写代码,为以后的代理,异步操作做准备。

这其中就有构造一个淘宝请求类,储存请求类,获取代理,设置超时时间,代理异常捕捉等问题。听我一一道来。

PROXY_POOL_URL是获取代理的url,这个要配合代理池的使用。即使是付费代理,最好也是在代理池走一遍流程,以提高代理的正确率。

定位一下结点,看上去好像只要用代码定位到这里就可以提取数据了,其实不然,上图的页面和代码都是异步加载出来的,和真实的请求结果很不一样。我把代码请求获得的代码和浏览器看到的代码比对一下,你就知道。

浏览器看到的代码

请求返回的代码

既然在html里找不到,那干脆就搜索吧,点击NetWork,刷新一下页面,搜索任意商品标题

果然是有的,它保存在一个名为g_page_config的变量里,而且是json格式的。回过头来发现响应的结果也有这个东西:

原来如此,数据藏在这个地方,直接用正则表达式就可以匹配出来:

因为要保存到mysql里面,所以匹配结果的每一组都应该是一个字典,都放在一个列表里。对于这个列表怎么构造,在这里说明一下:

re.findall()返回的结果是一个列表,列表内的每个元素都是一个元组,一个元组就是一个商品的信息(标题,价格,成交人数等等),keys也是一个元组,代表着mysql里的键名,运用dict(zip(keys,value))的方式创建字典,最后外面套上个列表推导式,这个列表就搞定了。

有时候,因为一个商品少了【【微信】】这个键,导致item_loc的值非常长,直接匹配到下一个商品的item_loc,这种情况是不允许的,所以加上长度限制,过长则直接跳过。

根据以往的套路,有了url,代理,解析函数,基本上就可以完成这次的爬虫了。但这次不同,要做到一个高效稳定的爬虫仅仅考这些是不够的。就好比代理,万一这次的请求失败了怎么办,会不会出现异常,这页的数据就不要了吗?当然是不行的,不到万不得已,绝不放过任何一条有价值的数据。所以要建立一个高稳定的高容错率的机制。

上面构造了一个请求类,目的就是把本次请求的相关参数比如失败次数,超时时间,是否需要代理等整合到一起,统统放到redis数据库内。然后统一调度,若请求失败则再放入redis中,等待下一次的调度。这样就不会丢失数据。

存好url,等待后面的调度

首先判断是否还有请求类等待调度,有则取出这个请求类,拿出来的这个类只是一空盒子,里面没有任何东西,只有表面的信息(*在一起的参数)。所以要请求这个类里面的url,才能得到响应,盒子里才会有内容。

在请求之前先判断是否需要代理,need_proxy这个属性是根据setting.py里的NEED_PROXY设置的。代理这个东西,有可能上一秒测试的时候还是好好的,下一秒就不行了,寿命非常有限。所以还是要有相应异常捕捉机制。

调度函数里的callback就是解析函数parse_detail(),如果这个请求返回的是个False,parse_detail()自然就不能解析出数据,解析不到数据怎么办?

这时候就用到容错函数了

在解析的数据出现异常的时候,便会调用这个函数,将失败次数+1,到了最大失败次数MAX_FAIL_TIME时则从redis中彻底删除这个请求,MAX_FAIL_TIME在setting.py中设置。

如果解析数据成功,就直接插入mysql里。

有关redis和mysql的代码,都是些套路问题,记下来就好,需要的时候直接拿出来用,我就不在博客里详细介绍了。

更多详细内容,完整代码见github:


ott大屏营销模式 分析ott大屏营销如何c位出道


近些年广告主对于OTT普遍存在着“知行矛盾”。

认知方面,在存量博弈时代里,OTT已是行业公认的“流量洼地”。用户规模持续增长、“一对多”覆盖、家庭场景第一大入口等等诸多特性,使其营销价值被广泛认可并受到追捧。

但意外的是,在行动方面,如今大家仍在移动端的效果广告上“卷”,不厌其烦的在素材、定向、出价等环节做优化,试图从罅隙中提效找增量。而OTT仍是排在广告主预算投放计划较后的“补充”角色。

这种“知行矛盾”背后的原因其实有多重:比如各行业现阶段对短期可见的增长需求更为迫切;广告主又往往存在行为惯性,会本能选择熟悉的、行业主流的广告类型,避免创新冒险。另外很多广告主的认知也并不全面,大都还认为OTT只是做品牌曝光……

想要走出“知行矛盾”的困局,此时诸多问题就来到了面前:OTT厂商该如何更新和补齐广告主的认知?影响广告主真正做出投放决策的关键是什么?如何驱动其走向OTT的脚步进一步加快?

01以“完美三角”重估OTT价值

营销本质上是将广告内容投放于目标人群,进而激励转化的过程。而这一过程其实可以抽象凝练出三个关键点:流量、场景以及质量。

不难理解,流量就是看广告能够覆盖和触达多少目标人群。广告主常关注的曝光率、点击率以及后续的ROI等等,其实都是紧紧围绕着“流量”的评估指标。相较之下,与广告内容更为相关的场景和质量,其实是容易被忽视的。

之所以强调场景,一方面是因为广告出现的环境对效果产生直接影响,比如同一件衣服在热播电视剧主角身上呈现,肯定要比直接放在货架上更具吸引力。另一方面场景其实也会反过来长期影响品牌形象,上央视做广告和街头发传单,消费者对品牌的信任、定位、调性感觉会完全不同。

而关注质量价值,是因为在当下这一信息爆炸、获得感更低的环境里,只有优质内容才能留住用户。“触达没用,触动了,让消费者动心,影响其心智才有用。”正如小米互联网业务部商业营销品牌总经理陈高铭在金投赏峰会上所说,广告覆盖多少流量决定营销效果下限,而广告质量决定着营销效果的上限。凯度《数字内容ROI提升手册》中也有数据显示,营销活动认知的55%是由内容质量决定,其次才是触达以及频次。

小米互联网业务部商业营销品牌总经理陈?铭

流量价值、场景价值以及质量价值,这三点组成了一个“完美三角”模型。在今年第16届金投赏峰会的小米商业营销专场上,陈高铭提出的媒介投放评估新模型与之不谋而合。

OTT的流量价值是最先为行业所看重的。根据国家广电局公布的数据,OTT覆盖人口数达10.83亿,已经可以称得上是“国民级”媒介。而且根据秒针的数据,OTT的媒介触达率表现仅次于手机短视频,比手机社交媒体、手机长视频等等媒介触达率都更高。

当然只看流量并不能完全反映OTT营销全貌。以场景价值角度看,OTT既有被广泛认可的优势,也有易被忽视的关键效用。

首先得益于大屏强曝光的先天优势,OTT营销场景是极具沉浸感的。如今信息爆炸但注意力碎片化的网络环境,为广告营销带来很大难度,用户注意力转瞬即逝。而OTT的强沉浸性,就可以让营销内容更有穿透力,特别是在节日、赛事、大促等节点时有极佳聚客效应,吸引用户更长时间关注并产生购买意愿。

其次,包括消费者在内,行业内外始终都认为大屏广告的投放要求和价格都较高,这是种从传统电视媒体延续而来的认知。也正是因此,消费者会认为OTT营销是大企业、大品牌才能玩得转,这种公信力“光环”不仅让OTT媒介受到青睐,也将会投射于品牌,帮助其赢得更多消费者。秒针数据就显示,OTT的媒介公信力是其他主流媒介的2.2倍。

另外,大屏这种媒介形态,就决定了其呈现出的广告声效画面足够精致、有质感,有较高的制作水平、内涵品质。精致高端的营销内容也直接体现着品牌的调性和定位,不论是作为新玩家想打出名头、推新品还是在上升期希望品牌升级、OTT都能发挥效用。

再从质量价值角度看,OTT一方面是有比小屏最强的广告效能,另一方面体现在与其他媒介协同运用时发挥重要效用。

对广告主而言,小屏的优势在于随时随地可触达,以“短平快”的方式高效种草。不过短平快也容易存在转瞬即忘的问题,特别是在竞争极为激烈的当下,广告只要前几秒没能抓住注意力就会被划走。

此时再对比OTT,大屏的独占性让广告的完播率更高,随之消费者的记忆度和被激励的转化可能性也就更高。Media Science 2022 受众研究的数据就显示,大屏广告观看的完播率是71%,远高于移动广告30%的完播率;品牌广告首次曝光,大屏广告记忆是移动广告的4-5倍,观看广告后,大屏广告购买意向是移动端的2.3倍。

当然能够激发兴趣,并不意味着百分百即刻购买。“没有一个媒体渠道是可以单打独斗地帮客户去完成一个营销目的。”在金投赏峰会上,澳大利亚旅游局中国区市场总监栾方亮特别提到了这一点,这其实也为OTT的协同价值做了说明——在走向转化的关键节点上,大屏独特的广告效能,会在与其他媒介整合运用充分体现。消费者基本上都会有大小屏伴随观看的习惯,此时大屏高质量广告触达用户被种草,小屏即可承接转化。前链路驱动、后链路协同,OTT可以说是在营销的每个阶段上发挥了重要作用。

整合流量、场景以及质量这三个核心点,OTT营销“完美三角”得以构建。比起一味描述大屏强曝光、用户多,这种多维度、全面评估的模式,显然对广告主而言会更有科学性和说服力。

02取长补短,OTT“品效销”兼顾的可能性

OTT大屏的品牌营销价值可以更全面呈现,接下来值得强调的,是当下营销经营一体化趋势明显,广告主变得更为务实,虽然对于“品”的重视程度在加深,但势必会更关注“效”和“销”。换句话说,如果某类广告无法实现品效销兼顾,再多营销效能和独特优势也始终是“没落地”。

不得不承认,过去这正是OTT的“弱项”所在。OTT在“品”这一方面的价值被广泛认可,但“效”因为大屏的交互性相对弱、面向受众画像不够清晰等问题,始终难以清晰自证;“销”也是因为此前大屏无法直接下单,销售成绩无法归因。

显然,OTT营销早就来到了必须要升级的时刻,行业中亟需有人来解决以上痛点。此时,行业头部玩家逐渐找到了痛点的解法——即通过合作来取长补短。

从2021年起,小米OTT就与电视淘宝展开了合作,针对多个行业领域进行探索。比如头部度假村品牌CLUB MED在小米OTT做营销时,用户打开电视即可看到品牌的创意开机广告,在观看内容时也会看到前贴片广告。而更重要的是,用户可以直接从这两类广告点击打开电视淘宝、进入CLUB MED的店铺直接下单,最终品牌的到店高质客流、ROI和转化订单的客单价等数据均远超预期。

包括CLUB MED在内的多个成功品牌案例,为小米OTT和电视淘宝的进一步深化合作打好了基础。今年,小米OTT就携手电视淘宝推出了OTT业内首款CPC广告产品“屏效通”,以此为加速器助推OTT实现品效销合一。

之所以能作为加速器,是因为屏效通这一产品对于OTT广告投前、中、后全流程中的痛点都有解决方案。

投前,由于OTT是“一对多”触达家庭,过去广告主更多只是知道广告被哪个家庭看到了,但并不能直接确定家庭中的个人,OTT和移动端标签无法通用,也很难直接打通。

但现在,屏效通让小米生态和电视淘宝的双端数据叠加,OTT有了可以从看“家庭”到更精准看“个人”的可能。精准锁定屏前目标人群,即让广告主真正看清触达了谁,究竟有多少人真正被企业的品牌所影响,增强了认知、好感甚至购买意愿。消费者洞察越是全面、深入,也就意味着广告投放的触达越精准,营销预算利用也就越高效。

投中,OTT广告类型多样,广告主看不清广告的效果差异,如何选择、如何组合才能实现“品效销”兼顾并没有标准答案,预算究竟有没有浪费很难知晓。

如今,屏效通以先进的智能算法和技术,实现了CPC点击次数付费,这意味着品牌主可收获更具购买力、更具转化潜力的品牌兴趣人群,营销效果的确定性更强。广告主不再是凭感觉和经验去投放,预算可控性会更高。后续广告主也可根据数据反馈及时调优投放策略,实现效果最大化。

而投后,过去用户被OTT广告种草后会自行跳转至其他渠道购买,OTT做营销归因和效果评估很难。

但如今在电视淘宝效果后链路支持下,屏效通能够实现科学归因及效果监测,同时人群资产可以回流至广告主自有数据中台,支持其后续去“精耕细作”。对OTT营销而言这可以说是一个突破性的进步:当营销全流程能够追溯、量化,意味着OTT终于进入了“科学营销”时代,广告主做投放时心中更有数,OTT的营销价值也会最大限度对外呈现出来。

金投赏峰会panel

“用评估品牌的指标来要求效果广告,用衡量效果广告的标尺来量化品牌营销,推动品效销一体化时代的真正到来。”在金投赏峰会上,电视淘宝CEO王磊这样说道。OTT依然是一个强曝光的媒介,在 “品”上大有可为,但通过小米OTT与电视淘宝的合作就能看出,其发展方向上已向“效和销”靠拢,帮助品牌实现转化,带动销量增长的能力可证。

陈高铭也表示小米OTT未来将会向两个方向走:一是更偏向“品”的角度,做更好的广告产品和广告资源,满足客户的需求。二就是做品效销一体化,让广告主能通过大屏将多少人带进店里消费这件事确定下来。最终能产生多少ROI仍在探索中,但至少广告主在做营销时有了一种新选择。

总结以上来看,做OTT价值的重新评估,是先帮助广告主更新了认知,消除顾虑;而后推出切实可用的产品,则是引导广告主能更快投入OTT营销的有力工具。从看好到真正投入,再到科学评估投入产出效益,OTT营销的“进步”非常清晰。在新生态、新模式以及新产品加持下,广告主走向OTT的脚步势必会加快。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )


..天猫互助一共有几次,天猫互助一共有几次,天猫互助群最新活动消息,不会进群的,点赞加评论。我拉你。2023年淘宝618 购物狂欢节天猫扫一扫进群在哪淘宝618 理想生活狂欢季天猫互助一共有几次。