php网页正文提取程序测试版出炉

演示地址:http://www.woniu.us/get_content_demo/

功能:能够抓取90%左右的内容型网页,不需要写任何规则,程序能够自动识别出正文内容

             能够抓取GB2312与UTF-8编码的网页

 缺陷:暂不提供图片抓取

             程序识别精度还不够

相关文章

  • 没有相关文章

7 Comments to “php网页正文提取程序测试版出炉”

  1. 游魂 说:

    我就发现我的一个站在那10%中,使用PBdigg做的

    [回复]

    蜗牛 回复:

    已经可以了,你不是那10%了哦

    [回复]

  2. zong 说:

    不错哦 ,赞赏

    [回复]

  3. 小黑米 说:

    您好~ 请问您的程序能否给我邮一份?最近也在处理这方面的东西

    [回复]

  4. 山坡羊 说:

    你好,请问这个正文抓取的程序可以给我发一份吗? 或者提供一些代码指引提示之类的? 我最近也需要做一个类似的东西,沿着你网站上给的链接找到的其他资料,对正文的统计判断很巧妙,但我还是有很多不明白的地方。请指教!多谢!!

    [回复]

  5. 兔八哥 说:

    您好,这个有下载吗?想学习下。谢谢!

    [回复]

  6. 土豆哥 说:

    哥们,能否分享一下源码,刚才用了demo,发现这个是我迄今为止找到最好的一个,希望老大能提供下载,万分感激!!

    [回复]

Leave a Reply