学院首页>安全防御>黑客技法>CCERT中文垃圾邮件过滤规则集

CCERT中文垃圾邮件过滤规则集

作者:xyz 来源:CCERT 添加时间:2006-5-26 13:07:51

4. Chinese_rules.cf的匹配速度问题

Chinese_rules.cf规则集一般被控制在500个规则左右。这一数字也许使人对Chinese_rules.cf的匹配速度有点置疑。仔细分析和测试结果表明Chinese_rules.cf的匹配性能还是比较高的,原因是:一、Chinese_rules.cf的规则都很简单,都是一个比较短的字符串,中间没有带任何一个通配符,这样匹配速度比复杂的规则要快的多;二、Chinese_rules.cf中有90%是邮件主题的规则,只有10%是信体的规则。由于邮件主题往往比较短,因此Chinese_rules.cf的匹配速度会比较快。

以上是对性能的理论分析。我们用一台普通PC(P4 2.8G CPU),用Chinese_rules.cf (2004 Dec 21的版本) 对178482封邮件匹配,则结果是平均匹配一封大小为5.0K的邮件只需要 0.04秒。这个结果实非常好的,因为如果一个邮件服务器的邮件平均大小为5.0K(不算附件),那么只要一台普通PC每天就可以处理216万封邮件。一般的学生邮件服务器每天收发30万封左右。换句话说,只要在现有的邮件服务器加上如同上述一台PC的处理性能就足以满足处理垃圾邮件的硬件需求。

5. Chinese_rules.cf 的准确率

Chinese_rules.cf的每一个版本都带有对准确率的测试结果。当前版本的测试结果如下:

Chinese_rules.cf,2005 Jan 2


阈值垃圾邮件查全率

(共16729)
正常邮件误判率

(共93655)

0.595.0%5.1%
1.092.9%1.6%
1.590.4%0.4%
2.087.9%0.1%
2.584.5%0.0%
3.081.1%0.0%
3.576.6%0.0%
4.072.4%0.0%
4.567.0%0.0%

扫描一封邮件大小为 1932.37 字节需要 0.03 秒(P4-2.8G CPU)

表2中的结果就是在测试规程中,除了Chinese_rules.cf 以外不使用其他任何规则。在实际情况,Chinese_rules.cf一般都会跟SpamAssassin的缺省规则同时使用。因为SpamAssassin的缺省规则中有一部分是描述邮件行为的规则,对检测中文垃圾邮件起作用,因此实际的性能会比以上实验结果要好。

注意、 对于每天处理40万封邮件以上的邮件服务器来说,能够容忍的性能是正常邮件误判率小于5%的同时,垃圾邮件的检测率大于90%。

第 2 页,共 2 页 [1] [2]
站内搜索