博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HtmlAgilityPack 抓取页面的乱码处理
阅读量:5989 次
发布时间:2019-06-20

本文共 739 字,大约阅读时间需要 2 分钟。

HtmlAgilityPack 抓取页面的乱码处理

用来解析 HTML 确实方便。不过直接读取网页时会出现乱码。
实际上,它是能正确读到有关字符集的信息,怎么会在输出时,没有取到正确内容。
因此,读两次就可以了。
#if interactive
#r @"E:\htmlagilitypack-99964\Trunk\HtmlAgilityPack\bin\fx.4.0\Debug\HtmlAgilityPack.dll"
#endif
//open System
//open System.Xml
//   hexun -- GB2312
//   tianya -- UTF-8
//let url = @"http://hadstj.blog.hexun.com/88419406_d.html"
let url = @"http://bbs.tianya.cn/post-worldlook-873912-1.shtml"
let html = new HtmlAgilityPack.HtmlWeb()
let doc0 = html.Load  ( url )
html.OverrideEncoding <- doc0.Encoding
let doc = html.Load  ( url )
let title = doc.DocumentNode.SelectSingleNode("//title").InnerText
printfn "%s" title
doc.DocumentNode.SelectNodes("//div")
|> Seq.map ( fun i -> i.InnerText )
|> Seq.iter   ( printfn "%s" )

转载地址:http://ibnlx.baihongyu.com/

你可能感兴趣的文章
matplotlib绘制圆饼图
查看>>
[POJ] #1008# Maya Calendar : 字符处理/同余问题
查看>>
16、正则表达式
查看>>
好用的函数sign和decode
查看>>
MySQL索引类型一览
查看>>
基础事件(二)
查看>>
之前写了http解析高德地图时,json转对象搞了半天 , 今天同事用GSON把json转对象,一句代码就解决了,代码如下...
查看>>
ora-01033:oracle initialization or shutdown in progress的一种解决办法
查看>>
Java 字符转码之UTF-8转为GBK/GB2312
查看>>
win7共享(guest)
查看>>
vc 6.0 生成word报表
查看>>
http协议与soap协议区别
查看>>
SqlServer高级特性--游标
查看>>
实现多行省略号
查看>>
使用lua
查看>>
buildroot的make menuconfig配置
查看>>
html 学习资料列表
查看>>
浅谈项目内异常处理机制
查看>>
note10 元组
查看>>
ThreadStart和ParameterizedThreadStart区别
查看>>