CCERT中文垃圾邮件过滤规则集
作者:xyz 来源:CCERT 添加时间:2006-5-26 13:07:514. Chinese_rules.cf的匹配速度问题
Chinese_rules.cf规则集一般被控制在500个规则左右。这一数字也许使人对Chinese_rules.cf的匹配速度有点置疑。仔细分析和测试结果表明Chinese_rules.cf的匹配性能还是比较高的,原因是:一、Chinese_rules.cf的规则都很简单,都是一个比较短的字符串,中间没有带任何一个通配符,这样匹配速度比复杂的规则要快的多;二、Chinese_rules.cf中有90%是邮件主题的规则,只有10%是信体的规则。由于邮件主题往往比较短,因此Chinese_rules.cf的匹配速度会比较快。
以上是对性能的理论分析。我们用一台普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 对178482封邮件匹配,则结果是平均匹配一封大小为5.0K的邮件只需要 0.04秒。这个结果实非常好的,因为如果一个邮件服务器的邮件平均大小为5.0K(不算附件),那么只要一台普通PC每天就可以处理216万封邮件。一般的学生邮件服务器每天收发30万封左右。换句话说,只要在现有的邮件服务器加上如同上述一台PC的处理性能就足以满足处理垃圾邮件的硬件需求。
5. Chinese_rules.cf 的准确率
Chinese_rules.cf的每一个版本都带有对准确率的测试结果。当前版本的测试结果如下:
Chinese_rules.cf,2005 Jan 2
| 阈值 | 垃圾邮件查全率 (共16729) | 正常邮件误判率 (共93655) |
| 0.5 | 95.0% | 5.1% |
| 1.0 | 92.9% | 1.6% |
| 1.5 | 90.4% | 0.4% |
| 2.0 | 87.9% | 0.1% |
| 2.5 | 84.5% | 0.0% |
| 3.0 | 81.1% | 0.0% |
| 3.5 | 76.6% | 0.0% |
| 4.0 | 72.4% | 0.0% |
| 4.5 | 67.0% | 0.0% |
表2中的结果就是在测试规程中,除了Chinese_rules.cf 以外不使用其他任何规则。在实际情况,Chinese_rules.cf一般都会跟SpamAssassin的缺省规则同时使用。因为SpamAssassin的缺省规则中有一部分是描述邮件行为的规则,对检测中文垃圾邮件起作用,因此实际的性能会比以上实验结果要好。
注意、 对于每天处理40万封邮件以上的邮件服务器来说,能够容忍的性能是正常邮件误判率小于5%的同时,垃圾邮件的检测率大于90%。