演示地址:http://www.woniu.us/get_content_demo/
功能:能够抓取90%左右的内容型网页,不需要写任何规则,程序能够自动识别出正文内容
能够抓取GB2312与UTF-8编码的网页
缺陷:暂不提供图片抓取
程序识别精度还不够
演示地址:http://www.woniu.us/get_content_demo/
功能:能够抓取90%左右的内容型网页,不需要写任何规则,程序能够自动识别出正文内容
能够抓取GB2312与UTF-8编码的网页
缺陷:暂不提供图片抓取
程序识别精度还不够
我就发现我的一个站在那10%中,使用PBdigg做的
[回复]
蜗牛 回复:
十一月 14th, 2009 at 17:26
已经可以了,你不是那10%了哦
[回复]
不错哦 ,赞赏
[回复]
您好~ 请问您的程序能否给我邮一份?最近也在处理这方面的东西
[回复]
你好,请问这个正文抓取的程序可以给我发一份吗? 或者提供一些代码指引提示之类的? 我最近也需要做一个类似的东西,沿着你网站上给的链接找到的其他资料,对正文的统计判断很巧妙,但我还是有很多不明白的地方。请指教!多谢!!
[回复]
您好,这个有下载吗?想学习下。谢谢!
[回复]
哥们,能否分享一下源码,刚才用了demo,发现这个是我迄今为止找到最好的一个,希望老大能提供下载,万分感激!!
[回复]