背景:
在C#写网络爬虫时候,有时候需要将html中的转义字符进行处理,还有网址中的中文处理
一、html转义字符处理
1.ASP.NET中的html解析
HttpUtility.HtmlDecode()方法
位于:system.web
2.网络爬虫转换回来:
WebUtility.HtmlDecode 方法 (String)
将已经为 HTTP 传输进行过 HTML 编码的字符串转换为已解码的字符串。
命名空间: System.Net
程序集: System(System.dll 中)
自写代码转换参考
二、网址中文处理
中文转化GBK编码
System.Web.HttpUtility.UrlEncode(“中国”,Encoding.GetEncoding(“GBK”))
GBK编码转中文:
System.Web.HttpUtility.UrlDecode(“中国”, System.Text.Encoding.GetEncoding(“GB2312”))
本人有偿定制程序开发(能力范文内,如C#爬虫开发),欢迎联系,QQ207708848
参考API网址:
https://msdn.microsoft.com/zh-cn/library/1e55w41w(VS.80).aspx