PHP正文提取–项目开始

       很久很久以前就想写个PHP正文提取的程序,大大小小的理论知识看了不少,关于正文提取的论文、算法基本上都看过了,也接触了几个在这方面做得很好的项目。不过很可惜要么是JAVA语言写的要么就是.NET写的。所以决定自己写个PHP版本的正文提取程序以备后用。

那两个项目的地址为:

http://61.128.196.27/txt/
http://www.dataocean.cn/webcontentpicker.aspx

       这里我使用的方法是基于统计的正文提取算法,详情见这里http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx

大致步骤如下:

一、解析HTML代码并记下处理的字节数。

二、以行或段的形式保存解析输出的文本。

三、统计每一行文本相应的HTML代码的字节数

四、通过计算文本相对于字节数的比率来获取文本密度。

五、最后用神经网络来决定这一行是不是正文的一部分。

这个算法是我见到的最简单同时也是最实用,效率最高的算法,比起那些在知网上看到的我们的大学生,研究生,博士生们写的论文要强不知多少倍。我一直在想,为什么这些人要把一个简单的东西写得那么复杂、写得鬼都看不懂做什么。

好了、废话不多说赶紧写程序!

相关文章

  • 没有相关文章

3 Comments to “PHP正文提取–项目开始”

  1. wilson 说:

    能否详解下这部分呢?
    五、最后用神经网络来决定这一行是不是正文的一部分。
    能提供下代码最好了

    [回复]

  2. wilson 说:

    对于神经网络德算法不是很清楚,能介绍详细一点吗

    [回复]

  3. ruionline 说:

    同求代码学习

    [回复]

Leave a Reply