很久很久以前就想写个PHP正文提取的程序,大大小小的理论知识看了不少,关于正文提取的论文、算法基本上都看过了,也接触了几个在这方面做得很好的项目。不过很可惜要么是JAVA语言写的要么就是.NET写的。所以决定自己写个PHP版本的正文提取程序以备后用。
那两个项目的地址为:
http://61.128.196.27/txt/
http://www.dataocean.cn/webcontentpicker.aspx
这里我使用的方法是基于统计的正文提取算法,详情见这里http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
大致步骤如下:
一、解析HTML代码并记下处理的字节数。
二、以行或段的形式保存解析输出的文本。
三、统计每一行文本相应的HTML代码的字节数
四、通过计算文本相对于字节数的比率来获取文本密度。
五、最后用神经网络来决定这一行是不是正文的一部分。
这个算法是我见到的最简单同时也是最实用,效率最高的算法,比起那些在知网上看到的我们的大学生,研究生,博士生们写的论文要强不知多少倍。我一直在想,为什么这些人要把一个简单的东西写得那么复杂、写得鬼都看不懂做什么。
好了、废话不多说赶紧写程序!

能否详解下这部分呢?
五、最后用神经网络来决定这一行是不是正文的一部分。
能提供下代码最好了
[回复]
对于神经网络德算法不是很清楚,能介绍详细一点吗
[回复]
同求代码学习
[回复]