2018-07-08 09:50:21
在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例] )都有提到一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。...
2018-06-26 18:06:02
笔者是音乐爱好者,喜欢抖音上的各种音乐。于是制作了这个小软件,它功能很简单:利用酷狗接口搜索关键字音乐勇哥2020/2/18号注: 程序里目前使用的接口已经做旧,不能在使用,需要读者自己去分析新接口。在线播放音乐显示歌词可以下载音乐这个小程序用到了Json解析,还有http下载网络资源等技术。请参考下面的源代码:(第一次读取搜索列表取得的某一条歌曲的数据内容)using Cosmokey.Util...
2018-06-26 15:12:50
using System;
using System.Collections.Concurrent;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
u...
2018-06-14 16:26:33
一直以来没有留意过HTTP请求头的IMS(If-Modified-Since)标签。最近在分析Squid的access.log日志文件时,发现了一个现象。就是即使是对同一个文件进行HTTP请求,第一次和第二次产生的网络流量数据也是不一致的。在调查的过程中,逐渐了解了HTTP的If-Modified-Since的头标签的作用。 大家都知道客户端浏览器是有缓存的,里面存放之前访问过的一些网页文件。例如...
2018-06-14 15:43:11
在 .NET (v4.0)中,使用HttpWebRequest请求Web页面,当向HttpWebRequest的Headers的标头集合中添加Referer,Host这类HTTP标头(Header)时,会收到:System.ArgumentException: 必须使用适当的属性或方法修改此标头。这样的报错!这个问题的引起在官方的说法是:通常通过 WebRequest.Headers 或 WebR...
2018-06-14 15:02:56
HttpWebRequest默认是有缓存的.通过设置 : webReq.Headers["Cache-Control"] = "no-cache";或者 webReq.Headers[HttpRequestHeader.CacheControl] = "no-cache";都可以设置httpHeaders项目 Ca...
2018-06-06 23:17:51
通过参数化的方式,登录QQ空间实例源码:# coding:utf-8
from selenium import webdriver
import unittest
import time
class QZone(unittest.TestCase):
"""登录QQ空间"""
def setUp(self):...
2018-06-06 23:15:53
前言:Requests简介Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 有点落后了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。总之,大家建议大家用Reques...
2018-06-06 23:07:21
前言: 学完requests库后,想到可以利用python+requests爬取页面图片,想到实战一下。依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图片,所以我选取饿了打开下面这个页面http://p.weather.com.cn/2017/06/2720826.shtml#p=7案例步骤:1.利用requests库,调用requests库中的get()方...
2018-06-06 23:01:19
参考:http://blog.csdn.net/ohmygirl/article/details/17855031一. Fiddler内置命令。上一节使用Fiddler进行抓包分析中,介绍到,在web session(与我们通常所说的session不是同一个概念,这里的每条HTTP请求都成为一个session)界面中可以看到Fiddler抓取的所有HTTP请求.而为了更加方便的管理所有的sessi...
2018-06-06 22:55:59
参考:http://blog.csdn.net/ohmygirl/article/details/17849983Fiddler使用一中已经介绍了Fiddler的原理和软件界面。本文主要针对Fiddler的抓包处理。Fiddler抓取HTTP请求。抓包是Fiddler的最基本的应用,以本CSDN博客为例,启动Fiddler之后,在浏览器中输入http://blog.csdn.net/ohmygir...
2018-06-06 22:51:42
参考文章:http://blog.csdn.net/ohmygirl/article/details/178461991.为什么是Fiddler?抓包工具有很多,小到最常用的web调试工具firebug,达到通用的强大的抓包工具wireshark.为什么使用fiddler?原因如下:a.Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大。模拟http请求的功能也不够,且fir...
2018-06-06 22:44:35
Fiddler基础知识Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888,我们也可以通过设置进行修改。代理就是在客户端和服务器之间设置一道关卡,客户端先将请求数据发送出去后,代理服务器会将数据包进行拦截,代理服务器再冒充客户端发送数据到服务器;同理,服务器将响应数据返回,代理服务器也会将数据拦截,再返回给客户端。F...
2018-06-05 09:40:42
做到一个上传图片的需求,网页已经可以了,模拟网页在客户端上传图片,试了很多次都没成功,最后发现是少了一个换行符,而且是网页上的字符全部一字不漏的转换成文件流,上传。先看下网页下的完整请求: 前面这个是头,PNG开头后面这一串是二进制流 这个是尾部,跟在PNG的二进制流后面然后代码如下:private void btnOcr_Click(object sender,...
2018-06-04 22:23:58
错误如下:如果是以流的方式提交表单数据的时候不能使用get方法,必须用post方法。或者也可以把GetRequestStream()和相应的代码注释掉就OK了 newStream = webReq.GetRequestStream();
newStream.Write(byteArray, 0, byteArray.Length);
newStream.Close();特此记录!...
2018-06-04 09:14:51
我有这么一个需求: 一个域名,xxx.com,它后面其实有很多个iP:比如:1.2.3.4,5.6.7.8,9.10.11.12这些ip上面都有同样的网站,域名解析的时候会随机分配一个ip给你(这个就是DNS负载均衡)。但是现在假如我想访问一个特定IP的上的网站,比如5.6.7.8上的网站,但是由于网站限制了必须通过域名才能访问,直接把域名改成ip地址形成的url如:http://5.6....
2018-06-03 21:03:15
前面使用HttpWebRequest 对象可以抓取网页中一些资料,不过有些页面可以直接打开,而有些页面必登录之后才能打开,也就是在登录后保存登录信息在Session,这样就可以访问有权限的页面了。下面通过HttpWebRequest获取网页内容并保持session,最主要的就是存储cookie。第二次请求网页的时候把cookie传送过去,这样就可以访问有Session的页了。CookieConta...
2018-06-02 20:39:50
要用到System.Web.HttpUtility, 就需要引用System.Web。但是在vs2013中发现不知道怎么引用它。研究了一下,正确引用方式如下图,应该选择程序集->框架, 就可以看到Sytem.Web了。如果在COM中是找不到的。网上说是要切换到.net3.5,是错误的,其它跟.net版本无关。Vs2013引用System.Web和VS2010中是不一样的。...
2018-06-02 19:13:51
最近模拟登陆,发现CsrfToken是个很麻烦的问题,所以看了一下CsrfToken的一些介绍。发现这篇文章写得很不错,所以转载过来。CSRF 背景与介绍CSRF(Cross Site Request Forgery, 跨站域请求伪造)是一种网络的攻击方式,它在 2007 年曾被列为互联网 20 大安全隐患之一。其他安全隐患,比如 SQL 脚本注入,跨站域脚本攻击等在近年来已经逐渐为众人熟知,很多...
2018-05-30 21:42:58
HTTP(HyperTextTransferProtocol) 即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模 型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传 递message-header,即http header消息 。http header 消息通常被分为4个部分:g...