去年底以来我们公司的大量用户收到大量的图片垃圾邮件,请问大家是如何反图片垃圾邮件的?
思一克 回复于:2007-03-12 10:11:13
非图片垃圾你公司用什么?
beerpapo 回复于:2007-03-12 10:22:36
RBL、RWL、SpamAssassin
思一克 回复于:2007-03-12 10:44:44
SA RBL反图片可以吗? 我的印象不行
beerpapo 回复于:2007-03-12 10:49:54
嗯,RBL、RWL、SpamAssassin 不能反图片垃圾邮件,所以才问问大家
思一克 回复于:2007-03-12 10:58:57
建议换有费用的产品或服务
beerpapo 回复于:2007-03-12 11:54:42
谢谢
思一克 回复于:2007-03-12 12:06:12
你用户数目是多少
abel 回复于:2007-03-12 12:06:33
引用:原帖由 思一克 于 2007-3-12 10:58 发表
建议换有费用的产品或服务
1. 現在有這種東西嗎 ? antispam within Picture ? 沒見過? 思兄有任何實作或參考到什麼產品嗎 ?
什麼行為,協議反垃圾的,根本不敢涉及圖片這一磈
2. 反圖片 SA 中本來就有 FuzzyOCR 這個模組可用,但想用的人不多
因為
1. 辨識率的問題,斜體或粗體或模糊處理...都會讓圖片中的字解到的比率降低
2. 惡意的攻擊,你跑 OCR 我就給你一堆,操到你陣亡
3. 反圖片有多少種圖片格式要處理 (現在看到的多數是 gif, 少數 jpg,但還有很多其他的格式) ? 處理起來恐怕更費事
這問題要多方思考副作用,功能面的東西連現實中 image to text 都作不好,更何況應用到 antispam 中
思一克 回复于:2007-03-12 12:12:49
TO abel,
怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。
没有什么奇怪的。
abel 回复于:2007-03-12 12:23:26
引用:原帖由 思一克 于 2007-3-12 12:12 发表
TO abel,
怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。
没有什么奇怪的。
這個打死我都不相信,不妨您舉個實例,什麼產品,資料在哪裏 ?
反圖片的 antispam 也不過是 parse 出來圖片中的字在回到原來的一般 rule 去處理而以,
原來的 rule 恐怕也不容易到 96% 吧,就算有這也不可能只是單純圖片反下來的結果
我只用 39 碼的條碼來處理傳真的圖檔,用盡各種方法也難以到達 50% 的境界
(當然,這和我個人功力有關),你知道一個傳真收下來是個圖檔,但這個圖檔會有很多變異,
就像一般現在的灰階處理,加深,斜體,灰點,白點,放大,縮小...各種情況都有,我只要 條碼
的 OCR 都到不了 50%,你說到得了 90% 還能認字(英文字,中文,甚至其他語文),我看得了,現在那些
網頁的圖片驗證碼都可以省省了
你可以說這是別人的產品說的,但是不經思考一刻,這恐怕也是不對的
beerpapo 回复于:2007-03-12 12:34:03
800+
引用:原帖由 思一克 于 2007-3-12 12:06 发表
你用户数目是多少
思一克 回复于:2007-03-12 12:36:15
To Abel,
我无法举例。否则就有做广告的嫌疑。
我就是专门做ANTI-SPAM的。我说的效果完全达到,说的比例还留有余地。
你说识别50%。对于反垃圾不行,85%都不行,必须95%以上。
如果使用的方法不对,就很难达到完美的效果,无论实现者水平有多高。
估计你的方法不对。
这和处理传真是不同的。识别FAX图,50%可能已经很好了。
abel 回复于:2007-03-12 12:46:15
引用:原帖由 思一克 于 2007-3-12 12:36 发表
To Abel,
我无法举例。否则就有做广告的嫌疑。
我就是专门做ANTI-SPAM的。我说的效果完全达到,说的比例还留有余地。
你说识别50%。对于反垃圾不行,85%都不行,必须95%以上。
如果使用的方法不对,就很 ...
如果你無法舉例,我想說服力恐怕是有問題的,這前面也是我一直問的 link 在哪裏,
不然你發訊息給我和樓主也可以
至於傳真問題,那不過就是舉一反三,圖片 spam 難到不能做像傳真那樣的處理 ?
那些 image spamer 如果真能這麼高的辨識率(還要不保證錯,不依賴白名單),
那 http 驗證碼為何今日會盛行 ?這東西不就是避 spam 用非人工的行為嗎 ?
思一克 回复于:2007-03-12 12:51:54
TO Abel,
你不是研究垃圾邮件的,或者刚开始研究不久。
我这样和你说吧(不是做广告),163.com, 263, 等他们研制的反垃圾(包括各种垃圾图片)的有效率也可以达到我说的比例. 不信,你自己实验.
也就是说95%以上地阻挡各种垃圾(包括图片)已经不是什么一个难的问题了.
我也不需要说服你或其他谁.
abel 回复于:2007-03-12 13:10:59
算了,我認為你總是跳躍式的回答,天馬行空
就你的話, fax 能 50% 就很好了,不能套用到 image spam 去嗎 ?
講 antispam, 或是 mail 技術你見我弱於這裏那些朋友了 ?
不是專做 antispam 產品的人就不能講 ? 這就是你的邏輯 ?
從電信那篇 RBL 就可以看到你的思考邏輯,再往前的也不少,
本帖,你的邏輯在我來看就是沒有依據, yahoo,gmail,hotmail 都辨不到的事
你辨到了!
再說一次,如果你能辨識到 90%,那些 google , msn ...的圖片驗證早就失敗收場了
163 那些我也沒興趣試,幹嗎去用一個會經過過濾的網路,你只要給我一個 link 說 95%,90% 也好的數據不就得了,還要我去試 ? 我去試他們恐怕連 50% 都達不到 image spam 辨識率,錯誤率更是高的離譜吧 ?
我不能寄日文去當正常信, spam 信,買廣告傳真寄過去 ? 寫中文/英文大談買威而剛 (我想他們只會看到威而剛,而不是語意吧)
90% ,先除以2再來說,圖片,不變成字,大概就是靠其他手動而以,而那些手段本身和圖片無關,
一些跳梁把戲說多好聽而以
abel 回复于:2007-03-12 13:14:07
引用:
也就是说95%以上地阻挡各种垃圾(包括图片)已经不是什么一个难的问题了.
我看你自己先心需,把圖片 90% 以上變成了 95%以上地阻挡各种垃圾 的語意了
沒有實證,你自己慢慢吹
思一克 回复于:2007-03-12 13:22:15
TO ABEL,
我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.
我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.
你自己不要以自己的感觉来给什么东西下"打死也如何"的结论.
abel 回复于:2007-03-12 13:31:33
引用:原帖由 思一克 于 2007-3-12 13:22 发表
TO ABEL,
我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.
我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.
你自己不 ...
你的邏輯就是錯的就避而不答而以,不做廣告,你發個訊息給個 link 那麼難嗎 ?
那家做得到不是天大的喜事嗎 ? 幹嗎不風光發表呢 ?
圖片就不過是那個邏輯,有圖的都檔,這種事我也做得到 99%,不檔是那白名單而以,
而本身檔的原則和圖片內容一點關係都沒有,不是嗎 ?
我是看不過去你瞎吹,才故意要吐你糟 (台灣話的意思就是反駁), 這麼高的辨識率
google 都可以直接做圖片 search 了 (google 現在做的是檔名和包圖片的 html 而以,和圖片內容完全無關)
思一克 回复于:2007-03-12 13:39:18
TO ABEL,
你以为阻挡95%以上各类垃圾(强调:图片垃圾更高于此比例)的反垃圾系统是世界难题了? 是什么伟大的发明?
我认为仅仅是一个普通的东西. 发表什么?
我已经告诉你了其他2个产品(和我毫无关系)或服务也可以达到这个比例. 你疑问什么? 自己实验吗.你自己在那里建立个帐号,看有垃圾邮件否?
beerpapo 回复于:2007-03-12 13:53:00
嗯,两位大牛不要吵哦。讨论问题而已,不能伤和气吖。对于反垃圾的问题我也没怎么深入去测试过,只能听大家讨论,谢谢两位啦,我再Google一下
abel 回复于:2007-03-12 14:21:07
引用:原帖由 思一克 于 2007-3-12 13:22 发表
TO ABEL,
我没有让你相信. 你不要说吹不吹的. 对于各类垃圾来说, 图片反而是相对容易对付的垃圾. 因此阻挡比例肯定大大高于95%.
我已经告诉你了, 不止一个产品和服务可以的. 不信你自己实验吗.
你自己不 ...
我看省省吧
我寄了一個圖片 spam 結果還不是照常進 inbox
寄第二封信回我
l2C5r2JC029177- 1042 Mon Mar 12 13:53 <[email]abel@abc.tw[/email]>
(Deferred: 450 DT:SPM mx24, wKjR5rDrb4HH6vRF4dyfAQ==.45767S2,)
<[email]abel@163.com[/email]>
這也真是夠了,誰看得懂寫什麼
我看也不過是 greylist , 和圖片有什麼關係 ? 值得你這麼吹噓 ?
天呀,這個爛東西竟值得你所說的 95%, 連 1% 都不到,10幾封 spam 信連一封也欄不到
圖片有兩個都沒有判斷到 ?
我看另外一個連 SPF 也沒有就更省省了,這就是你的例子 ?
這就是你的 95%,我得再給他200 封以上的 spam ,且封封命中才能到你說的 95%
真是夠了,申請帳號的畫面也讓人失望,我那打得進簡體字,那來的身份證 ID,結果還不是護照隨便填
我看思兄自己多實驗吧,不過是繁體中文就全部都 miss 了,這個表現就是做 antispam 的結局呀
完全看不到任何效果,更不用說什麼圖片 90% 了,你倒底自己有沒有實驗過呀?
浪費我的時間還不是證明你是錯的,那東西大概只能對付 gb2312 的笨蛋吧
abel 回复于:2007-03-12 14:25:50
引用:原帖由 beerpapo 于 2007-3-12 13:53 发表
嗯,两位大牛不要吵哦。讨论问题而已,不能伤和气吖。对于反垃圾的问题我也没怎么深入去测试过,只能听大家讨论,谢谢两位啦,我再Google一下
我跟他有什麼和氣不和氣呢 ?
純粹看不過他在這主題所講的話而以,圖片做得到 90% 根本是天才會說的話
浪費無謂的時間也不過是跳來跳去證明 163 的無用論,而我所講的永遠都不會回答的斑主呀
認得出圖裏的字的 antispam 會認不出 "驗證碼" ? 從這反推不就知道言之無味嗎 !
思一克 回复于:2007-03-12 14:40:23
阻挡垃圾邮件不仅仅靠内容识别.
仅仅靠内容识别的系统不是好系统.我看也做不到90%.
所以你不要将图片内容识别率等同于图片垃圾的阻挡率.
那些花花绿绿的图片垃圾,你用眼睛一看就知道是垃圾,根本不需要读出其中的文字.
思一克 回复于:2007-03-12 14:49:19
TO Abel,
你实验163的? 做了没有意义的实验.
有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?
你这样实验没有意义.
告诉你,你的好的服务器, 根本不被检查. 属于比白名单还好的服务器.
但你如果不是发一个,而是往里发大量的,人家将封锁你的信箱地址,甚至IP.
所以对于一个反垃圾系统,你用一个好的地址发垃圾实验是没有意义的.
这样的实验仅仅对于完全基于内容识别的系统才有意义.
真的有意义的实验是:
将你注册的地址公布出去,使用,看一周可以受到几个垃圾.
163的应该很少很少.
abel 回复于:2007-03-12 14:58:57
引用:原帖由 思一克 于 2007-3-12 14:49 发表
TO Abel,
你实验163的? 做了没有意义的实验.
有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?
你这样实验没有意义.
告诉你,你的好的服务器, 根本不被检查. 属于比白名 ...
你永遠有千百個理由
我的內容就是圖片,都是 spam,
也有含 html spam 的,判斷不出來就找一堆理由
難道只要是"好的" 內容有問題就沒有關係 ?
是夠了,多是一堆和附件一樣的 spam !
就好的 server 163 就癈了,這就是你的例子 ?
內容可是問題一堆呀,這就是你做 antispam 的程度 ?
給自己找千百個理由 ? 我不過把我最近20封 spam 給它,而他卻像白吃全吃到信箱去了
然後你說因為我是好的,這就是你 antispam 的想法而以 ?
我看極其膚淺呀,因為它跟本不認 BIG5 spam
圖片 spam 更是認不出來,就因為 好的 server ?
只不是呼應我的前文,而你自打嘴巴嗎 ? 很顯然的他跟本不看圖片的內容?
95% 開根號的結果都不如
abel 回复于:2007-03-12 15:01:33
引用:原帖由 思一克 于 2007-3-12 14:49 发表
TO Abel,
你实验163的? 做了没有意义的实验.
有你这样故意用一个好的系统(你的服务器我相信是好的,完备的邮件系统)发垃圾的?
你这样实验没有意义.
告诉你,你的好的服务器, 根本不被检查. 属于比白名 ...
實在不想和你說什麼了,只要是論證,你永遠離題,
我只討論 圖片 spam 的問題,你非得講什麼 total spam 的結果
永遠抓不到什麼重心,這種做 antispam 的態度比我這剛入門 的人還不如呀
abel 回复于:2007-03-12 15:06:39
引用:原帖由 思一克 于 2007-3-12 12:12 发表
TO abel,
怎么没有?
有产品或服务可以接近100%地阻挡掉各种图片垃圾。其它的非图片的普通垃圾也是一样。
接近100%就是》》90%,比如96,97,98,99%的意思。
没有什么奇怪的。
你自己把自己和我的話好好看一遍好嗎 ?
你說圖片 90%, 結果最後我看 163 是 0%
如果你硬要說 163 是講 total 的,連個 5% 都沒有,只是因為我的是好的 server,
這種就是你的 antispam 觀點那也夠令人佩服的了,那些內容就算拿去一個剛裝好的 spamassassin 來判斷
(就是未調整過的分數值)都知道是 spam, 可鄰的 163 連個 SA 都比不上
圖片 我看你就裝作視而不見吧,免得再給自己找一堆理由
思一克 回复于:2007-03-12 15:11:11
TO Abel,
你在163上开一个信箱(他们免费的是否和收费的一样我不知道),将地址公布出去,看是否收到图片垃圾.
SA,能做什么? 你仅仅用SA? 还处于反垃圾的低级阶段.
uxu 回复于:2007-03-12 15:11:19
我可以100%反图片垃圾邮件
那就是所有带图片的邮件统统干掉
嘿嘿
思一克 回复于:2007-03-12 15:12:52
那就不叫"反垃圾"系统了.
必须不影响正常的带图片的邮件!
引用:原帖由 uxu 于 2007-3-12 15:11 发表
我可以100%反图片垃圾邮件
那就是所有带图片的邮件统统干掉
嘿嘿
abel 回复于:2007-03-12 15:15:51
引用:原帖由 思一克 于 2007-3-12 14:40 发表
阻挡垃圾邮件不仅仅靠内容识别.
仅仅靠内容识别的系统不是好系统.我看也做不到90%.
所以你不要将图片内容识别率等同于图片垃圾的阻挡率.
那些花花绿绿的图片垃圾,你用眼睛一看就知道是垃圾,根本不需要读出 ...
你自己就再找理由吧,
這個主題本來就在討論圖片 spam,自己現在又講 你不要将图片内容识别率等同于图片垃圾的阻挡率.
人家也是好的 server/pc (helo,rdns,not in rbl, mail from..這些 check 大概就是你所謂好的 server 吧) 被中木馬,relay 就 pass 你的 rules 了 ?
我看這個 antispam 還是少用的好,因為它只能根據先天的條件來做 antispam
我不做產品,不賣產品,只服務自己 30 人公司的 mail admin,比起你那些一堆 jump/long jump 的人來說
重心抓得準了些,樓主就是卡在內容上,這也是我的問題,我也做不到樓主的需求
但絕不會顧左右而言他,用別的,商用的就有解 ? 其實還不過是吹吹而以,一彈就破
abel 回复于:2007-03-12 15:20:48
引用:原帖由 思一克 于 2007-3-12 15:11 发表
TO Abel,
你在163上开一个信箱(他们免费的是否和收费的一样我不知道),将地址公布出去,看是否收到图片垃圾.
SA,能做什么? 你仅仅用SA? 还处于反垃圾的低级阶段.
人家 SA 還可以外掛 OCR,至少還有點方法,
比起你的高談來得實際些
講一堆也沒有什麼內容的東西,這邊講得又不是 total 方案的 antispam ,
僅僅是圖片而以! 自己非得擴展到全部,真服了你
照引言你的想法也不過是一些 smtp 的 check , 這就是你的想法也太簡單了
所以根本就看不到圖片的程次,那些發的進來的都巳經是你所謂的 好的 server 了
abel 回复于:2007-03-12 15:25:13
引用:原帖由 uxu 于 2007-3-12 15:11 发表
我可以100%反图片垃圾邮件
那就是所有带图片的邮件统统干掉
嘿嘿
這也是一種方法,只要你公司的政策允許
含圖片不是好事,一些 0-day patch 的 exploit 圖片甚至可以讓你的電腦被入侵
思一克 回复于:2007-03-12 15:35:35
商业的早有解决方案. 图片垃圾阻挡比例大于95%.
你问问XXX的企业油箱用户是否还收到图片垃圾?
不要自己认为不行的别人也就一定不行.
还有一个美国的产品也可以达到这个阻挡比例.
我告诉LZ用商业的没有错误.
vyouzhi 回复于:2007-03-12 15:52:39
其实管理自己公司的邮件系统和一个专门提供邮箱服务有点不同
以我管理邮箱的情况看,
如果只管理自己公司的邮件系统的
只你的建立一个白名单的
就基本可以过滤90%以上的垃圾邮件了,
这个白名单就是把你们公司所有的邮件地址都放进去
只要符合这个白名单的就放过
不符合就过滤
这样不用花时间去考虑什么图片的垃圾邮件了
当然这个更新可能要花点时间
但可以说是最简单不过的了
如果是管理专门提供邮件服务的
那可能就麻烦一点
白名单是一定要的
只要不在这个白名单只才进行检查
在图片上面我进行的处理是
不检查图片内容
只检查是否有
[CODE]
“<IMG alt=3D"" hspace=3D0 src=3D"cid....>"
[/CODE]
cid的标志,再检查这个图片在哪一个位置
符合了我就把它作为垃圾邮件处理
你们可以测试1000封图片垃圾邮件和正常邮件
都带图片的
看看这些图片一般都是如何放置的
我现在过滤图片的垃圾邮件基本可以达到90%
当然出错也有点高
但只要出错一次
我就把这个地址加到白名单中
所以现在我的情况是比较好的
枫影谁用了 回复于:2007-03-12 15:56:48
引用:原帖由 abel 于 2007-3-12 15:25 发表
這也是一種方法,只要你公司的政策允許
含圖片不是好事,一些 0-day patch 的 exploit 圖片甚至可以讓你的電腦被入侵
ABel
可以測試下俺的機器不?私底下發幾十封垃圾郵件給我,行不?謝謝?
可以我把地址告訴你哈。
思一克 回复于:2007-03-12 15:57:57
相信并同意vyouzhi.
可以想象, 即使这么简单的做法都可以达到90%, 专业的产品或服务达到95%,96%就没有什么奇怪的了.
可以有人就是不相信, 非认为大于95%阻挡图片垃圾就是一个世界级别的难题.
不是的.
vyouzhi 回复于:2007-03-12 15:58:07
我现在用的是spamassassin,但我的过滤率可以达到90%以上
但出错率是1万封邮件有10封左右的出错
这个应该比较高
但只要时间越长
我的白单积累的地址就越多
出错率也会变得越少
现在我们都是讨论如何对图片进行识别来判断垃圾邮件
我觉得这个方法会出入一个死胡同
而且CPU的效率也会变得低下
如果转发另一种方法来判断图片的垃圾邮件
可能会更好
思一克 回复于:2007-03-12 16:14:38
ZL可以用vyouzhi 的做法看看.
abel 回复于:2007-03-12 16:25:30
引用:原帖由 思一克 于 2007-3-12 15:57 发表
相信并同意vyouzhi.
可以想象, 即使这么简单的做法都可以达到90%, 专业的产品或服务达到95%,96%就没有什么奇怪的了.
可以有人就是不相信, 非认为大于95%阻挡图片垃圾就是一个世界级别的难题.
不是的.
圖片 spam 可是只有 cid 的 ?
方法來看是根本不管圖片中的內容,只要有 cid 就檔了,
檔錯了再設白名單 , 這是好方法 ?
那不如有圖檔附件全檔了,再一個個補救來得快
這和我前面早提到(9 樓和 19 樓) 的有什麼差別 ?
純粹被動而以
根本上就是對圖片的無奈才會用這種方法而以
這本身和圖片辨識一點關係都沒有,只是思兄所謂的低級內容判斷而以,不是嗎 ?
思一克 回复于:2007-03-12 16:29:47
TO ABEL,
这是他的方法. 也是相当有效的. 你如果用SA, 可以学习一下.
我不用SA, 所以不会. 但我相信他的结果.
从此也就可以看出, 人会各种各样的方法. 不会就局限在你的考虑的范围内.
abel 回复于:2007-03-12 16:37:32
引用:原帖由 思一克 于 2007-3-12 16:29 发表
TO ABEL,
这是他的方法. 也是相当有效的. 你如果用SA, 可以学习一下.
我不用SA, 所以不会. 但我相信他的结果.
从此也就可以看出, 人会各种各样的方法. 不会就局限在你的考虑的范围内.
SA 只是我的一個方法而以,並不是全部
這種東西5年前我就明白了,並沒有什麼了不起呀,先全殺,再一個一個開放我認為這只是直覺的做法
更何況 cid= 也不是全部
vyouzhi 回复于:2007-03-12 16:37:37
to abel大哥
请检查一下,带图片的附件和在html镶入图片的邮件
是不是只有cid相差呢
vyouzhi 回复于:2007-03-12 16:43:07
在此给大家一个最简单的反垃圾邮件的mailfilter
是用在maildrop上面的
[CODE]
VHOME=`/home/vpopmail/bin/vuserinfo -d $EXT@$HOST`
SPAMVHOME=`/deke/vpopmail/bin/vuserinfo -d spam@yourdomain.com`
if ( /^From:\s*(.*)/ && lookup( $MATCH, "/etc/from.dat" ))
{
log "ok !!!!!!!!!!!!!! you use "
exception {
to "$VHOME/Maildir/"
exit
}
}
else{
exception {
to "$SPAMVHOME/Maildir/"
}
exit
}
[/CODE]
这样只要你的from.dat是足够的多
别的垃圾邮件都不用管
如果出错了
你可以从spam@youdoma.com这个账号取回来
如果你的from.dat是足够的多
过滤100%也不是吹的
这个也用不到什么杀病毒软件,什么SA之类的了
效率可以说是绝对的高
vyouzhi 回复于:2007-03-12 16:49:36
引用:原帖由 abel 于 2007-3-12 16:37 发表
SA 只是我的一個方法而以,並不是全部
這種東西5年前我就明白了,並沒有什麼了不起呀,先全殺,再一個一個開放我認為這只是直覺的做法
更何況 cid= 也不是全部
to abel 大哥
如果对自己公司,先全杀,再一个一个放
这种效率是最高
也是最好的
用我上面的程式
只要你再写一个shel来捕捉发出去的邮件地址
这个from.dat就可以自动加上去了
思一克 回复于:2007-03-12 16:52:35
"捕捉发出去的邮件地址", BOUNCE的怎么办? 用户设休假自动恢复的呢?
vyouzhi 回复于:2007-03-12 16:57:17
引用:原帖由 思一克 于 2007-3-12 16:52 发表
"捕捉发出去的邮件地址", BOUNCE的怎么办? 用户设休假自动恢复的呢?
这个看你如何写了
写得好的,可以很好,差的,可能有反作用
不过无论如何
我觉得也不用计较
只要能进from.dat的
都不是垃圾邮件的地址
就行了
别的不用管
思一克 回复于:2007-03-12 16:58:57
问题是垃圾邮件也可以冒充你的正确的from地址
vyouzhi 回复于:2007-03-12 17:03:30
引用:原帖由 思一克 于 2007-3-12 16:58 发表
问题是垃圾邮件也可以冒充你的正确的from地址
这个没错
但你有没有统计
会有多少的垃圾邮件来冒充的
除非别人对你有针对性的
否则这个原因太小了
[ 本帖最后由 vyouzhi 于 2007-3-12 17:04 编辑 ]
思一克 回复于:2007-03-12 17:07:18
我知道. 冒充的几率非常小.
但你这种还是不好.一律拒绝,然后一个一个放.
人的管理工作多, 如果一个大些的贸易公司, 因为联系几乎无穷多, 白名单也太大.
(我丝毫不否认对你的情况很有效).
vyouzhi 回复于:2007-03-12 17:22:25
是的
这个白名单真的会让人搞怕
特别是对方第一次发邮件给你的时候
按上面的程式都会跑到[email]spam@yourdomain.com[/email]这个账号里去
这个也是我的程式的最大的缺点
abel 回复于:2007-03-12 17:26:53
引用:原帖由 vyouzhi 于 2007-3-12 17:03 发表
这个没错
但你有没有统计
会有多少的垃圾邮件来冒充的
除非别人对你有针对性的
否则这个原因太小了
這的確不大,我自己也是統計 user 發過的名單自動形成白名單
另回答前面的問題, image spam 不是只有 cid 而以
若以 cid 而論,它可以是 QP
所以可能形成 =43=49=44
也可以是斷行形式
=44=
=49=
=44=
HEX....
也可以空 N 行
=43
=
=
=49
=
=
=
=
=
=
=
=44
它也可以再做一次 multipart,轉成 base64...
明天再說,今天要下班了,
還有不同的變化,或附件形式,今天 cid 最多,但日後肯定再變 !
思一克 回复于:2007-03-13 09:04:35
TO abel,
昨天没有详细看你的帖子。刚才比较细的浏览了。
LZ问的是如何才能反图片垃圾邮件的问题。我回答的是用专业的收费产品和服务,完全正确。
我再说一次,专业的收费产品和服务是有(不止一个)可以做到95%以上阻挡各种垃圾,包括图片。
如果仅仅是图片,有些产品的比例会更高。因为图片对于有些算法讲阻挡比其他某种类型的垃圾更容易。
根据你的帖子看可以知道你认为:
要想100%阻挡图片垃圾,
1)必须先OCR 100%将图片的文字识别出来
2)根据识别出来的文字用关键词(如SA那样)匹配来确定是否是垃圾
3)如果OCR只能识别出50%的文字,那么阻挡图片垃圾最多只能达到50%的有效比例。
你这种想法很可笑。是刚刚接触反垃圾的人才会有的想法。
至于163的实验问题,163有不是我所在公司,我和它没有关系。他在WEB PAGE上说阻挡垃圾96%以上我相信。虽然我没有用过他们的信箱,但那么一个大的公司公开的声明---因此我信。
至于你你直接发图片进去实验,就得出结论人家是0%,很可笑。
我要说明:
1)直接发图片进去实验仅仅对根据邮件文本内容或OCR出来的文本内容识别垃圾的系统才有效果。
而这样的反垃圾方法是原始的和效果不好的。我不相信163是用这样的方法。
2)直接发图片进去实验没有意义。垃圾发送者的发送行为(IP,PTR,FROM,等)也就是模式和你区别太大了。
3)那么如何实验呢?答:建立一个邮箱。正常使用,看垃圾邮件多少。
我会写另外一个帖子--关于用各种技术综合包括SMTP行为识别阻挡垃圾邮件的帖子。
abel 回复于:2007-03-13 09:21:59
引用:原帖由 abel 于 2007-3-12 17:26 发表
這的確不大,我自己也是統計 user 發過的名單自動形成白名單
另回答前面的問題, image spam 不是只有 cid 而以
若以 cid 而論,它可以是 QP
所以可能形成 =43=49=44
也可以是斷行形式
=44=
=49=
=44=
H ...
以上,我們知道這是 QP 作法,那也可以有 base64 做法,也就是所有的
Content-Transfer-Encoding: quoted-printable
都換成
Content-Transfer-Encoding: base64
那 cid 就至少會有四種變化出現,這個在實作上都太容易去避開 cid:
不然就是多重 multi-part , A-part 包 B ,C part, 接 D part (看不懂就是對這些沒有概念),如此也不會出現 cid: 的關鍵字
當然現在問題還沒有到這個程度(是沒有這麼多,但不是完全沒有),但不代表以後不會有,最後的解法肯定會
變成還原這些 multi-part,再來找關鍵字 (仍然不是找圖中的 keyword),但是很可惜的, html 的 URI
也可以有 N 種寫法來表示同一件描述.或以不同的 charset 來變化,再不然就是用 javascript/rss/css 等來
控制 (這個就更牛了), 也可以 embeded 一個外部的 uri ....你們慢慢想吧,不然來個 flash 也不錯!
不然也可以全不要文字,就是一張圖,這個東西很原始,只要來自 好的 (弄一個好的 Server 有什麼難的,spamer 有的都還有 DomainKeys 或是 SPF ,搞得比你還要好, rdns,helo,mail/rcpt 那些檢查對專門的根本就是癈材)的 Server 大概就能 break 你的 rule 了
好了,夠複雜了,但還有更進化形的! 不過 mail 的 multi-part + html 變化 排列組合巳經夠看了
cid 在我來看根本是沒有用的,也只能應付一時而以,但再一陣子就會再變了,那些對 cid: 後的 hex 值做
Scoring 的也沒有用, Spamer 發現他的信被 Block 太多很簡單就可以變形的
xautofzx 回复于:2007-03-13 09:30:33
现在垃圾邮件还真是烦人。
abel 回复于:2007-03-13 09:32:05
引用:原帖由 思一克 于 2007-3-13 09:04 发表
TO abel,
昨天没有详细看你的帖子。刚才比较细的浏览了。
LZ问的是如何才能反图片垃圾邮件的问题。我回答的是用专业的收费产品和服务,完全正确。
我再说一次,专业的收费产品和服务是有(不止一个)可以做 ...
思兄,你真的看懂我的話了 ? 不要讓我笑好不好,我的話重點只在於對圖片 spam 的無奈 !
從頭開始的回帖就是這樣!
再看上一樓我回的,你以為 spamer 不會搞 smtp 呀,那麼簡單的事你用那些一般的檢查對
全部就一體適用 ? spamer 幹嗎搞圖片 ? 我前面都可以 pass 你的 smtp check,甚至我自己(spamer)
都做的比你好, 就是因為你可以對 keyword 檔,我才搞圖片讓你抓不到或不好抓
搞圖片浪費 spamer 的 resource, spamer 也不想,就是因為內容而以,要 pass 你那些 smtp check,
就像 163 那白吃一樣,搞個好的 Server,弄個成萬上百萬僵屍電腦你防得了
太多 antispam 產品總是說自己多好,說明白了也不過是一些 smtp check 和內容檢查(有些白吃 的
antispam還會做 smtp callback check),自己搞一堆像專有名詞的四不像
思一克 回复于:2007-03-13 09:45:57
To Abel,
我不会给别的公司做广告。仅仅说明问题而已。
你说的“白痴”的ANTISPAM会有的。我从来没有否认。
但不是全部。我说过,有些产品是不白吃的。比如美国的XXXXXXX
人家一个专业做反垃圾的公司近10年的许多专业人的工作,怎么全都变为白吃了。
不要轻易低估了别人的智商。
我的一个朋友实验过XXXXXXXX,说还可以。图片垃圾肯定阻挡大于95%。我相信。
还有,国内的XXX的企业油箱,自己研制的产品,图片垃圾阻挡率也95%大于。
搞反垃圾,95%是一个目标,也是一个已经实现了的事实。
"
再看上一樓我回的,你以為 spamer 不會搞 smtp 呀,那麼簡單的事你用那些一般的檢查對
全部就一體適用 ? spamer 幹嗎搞圖片 ? 我前面都可以 pass 你的 smtp check,甚至我自己(spamer)
都做的比你好, 就是因為你可以對 keyword 檔,我才搞圖片讓你抓不到或不好抓
搞圖片浪費 spamer 的 resource, spamer 也不想,就是因為內容而以,要 pass 你那些 smtp check,
就像 163 那白吃一樣,搞個好的 Server,弄個成萬上百萬僵屍電腦你防得了
太多 antispam 產品總是說自己多好,說明白了也不過是一些 smtp check 和內容檢查(有些白吃 的
antispam還會做 smtp callback check),自己搞一堆像專有名詞的四不像 "
abel 回复于:2007-03-13 09:57:13
誰在和你說什麼 95%,total 的 95% 有什麼難的,在我這我用自己的99% 都可以,那些 pass 進來的
1% 中 100% 都是圖片,被檔下來的才不管你是 好的 Server 發的 ,就像你舉的例 163, 只因
為我是好的 server 它就像白吃一樣的 all pass, 這種 antispam 我看極其陽春, 我做的 antispam 架構不給別人服務,但是可以做到一台收信,多台 Round Robin 過濾,當然我們這種小公司只要全弄在一台上就好了
不需要吹噓什麼 9x%, 那些東西對於像我這種人根本是沒有用的,我用好的 Server 加上 pack/unpack 的一
些技術隨便都可以繞過你的過濾,對於技術更高的專業 spam 根本沒有什麼作用, 9x% 只是那些笨蛋的結果
而以
思一克 回复于:2007-03-13 10:16:07
TO ABEL,
我说的TOTAL 95%,而图片本身比95%还高。
你老用笨蛋,白吃,X, 这些词干什么? 无论说谁也没有意义呀
abel 回复于:2007-03-13 10:36:49
引用:原帖由 思一克 于 2007-3-13 10:16 发表
TO ABEL,
我说的TOTAL 95%,而图片本身比95%还高。
你老用笨蛋,白吃,X, 这些词干什么? 无论说谁也没有意义呀
因為只因為我只要搞一個 好的 Server 他們就癈了,不是笨蛋嗎 ?
你以為只有你懂 smtp 的技術呀 ? 我最近一週內收到 160 個 image spam
其中 143 個被檔下來了,而有 17 個 pass 過去了,這些被檔下來的因素只是因為非圖片的因素,
pass 過去的是因為沒有使用 cid , 17 個 passwd 過去的 ehlo 是標準的, IP 有反解,沒有在 RBL 裏
mail/rcpt 也都是對的,也對應了 Header 中的 From/To .... , 這 17 個還有 12 個有 SPF record,
你在那裏牛什麼 ? 這些東西你檔得下來 ? 一直講一堆叫人試,我試了 163 結果是笨蛋結果,對沒有圖片的
BIG5 Spam 還不是照樣 pass 過去
把你吹的產品拿來試看看呀,我從好的 Server 給你 1000 封 Spam 看看你能做到多少,再來吹吧
我說過了, 95% 只是一堆笨蛋 Spamer 的集合,對我這種人你能做到 70% 我看你就該偷笑了
vyouzhi 回复于:2007-03-13 10:39:08
引用:原帖由 abel 于 2007-3-13 09:21 发表
以上,我們知道這是 QP 作法,那也可以有 base64 做法,也就是所有的
Content-Transfer-Encoding: quoted-printable
都換成
Content-Transfer-Encoding: base64
那 cid 就至少會有四種變化出現,這個在實 ...
to abel 大哥
你忘了一件事,你研究的都是垃圾邮件的,你可能没有研究过正常邮件
如果正常邮件中都是html镶入图片的,那么cid又是如何变化的呢?
这个你应该没研究过吧,就好像我自己的规则一条,我把html的邮件中包含有 iframe 标签
的邮件都打很高的分,因为正常邮件中出现iframe的标签实在太小了,所以客户中邮件用到
java做的,就现在来说实在太小了吧,或者以后会.
而且你说的cid可以变成不同的编码,这个在SA中可以解开
http://spamassassin.apache.org/tests_3_0_x.html
rawbody 这个就可以解开base64的编码了
思一克 回复于:2007-03-13 11:01:47
ABEL,
你连基本的SPAM原理都没有搞懂。
一个好的SERVER正常情况下会发垃圾吗?如果你不断发垃圾,好的SERVER也就变成了坏的,对方不阻挡你的FROM甚至IP地址? 还会让你继续“实验”?
一个在公司的正常人会用自己的油箱不断发图片1000封?你公司不开除了你?
sohu.com都有此功能。如果可户机器有病毒了,不断发,人家给你整个服务器BLOCK了。你还实验什么?
还有频率控制。允许你这样实验?
”你吹的產品拿來試看看呀,我從好的 Server 給你 1000 封 Spam 看看你能做到多少,再來吹吧
我說過了, 95% 只是一堆笨蛋 Spamer 的集合,對我這種人你能做到 70% 我看你就該偷笑了 “
vyouzhi 回复于:2007-03-13 11:08:49
to 思一克 大哥
好的server也会发垃圾邮件
当然如果这台server是只对自己公司的比较好管理
如果是提供mail服务的
这个就难说了
思一克 回复于:2007-03-13 11:17:09
youzhi,
我是说通常情况不会。2种情况会
1)专门做的发广告的SERVER。----------- 对反垃圾系统简单。一封了之
2)正常的SERVER被CLIENT端闹病毒了,发很多。------ 速率控制对付,然后封FROM,封IP
3)免费注册在大的服务商上发广告。封FROM。继续注册,继续封
4)除此之外,就是故意恶意实验了/ 几乎不可能
一个好的SERVER管理员要对用户有发件数量限制的。不能无穷发。比如100个/天,因人而变
high222003 回复于:2007-03-13 11:23:25
我公司的邮箱每天都有垃圾邮件,能不能在自己的电脑上装个反垃圾邮件的软件?推荐一下
vyouzhi 回复于:2007-03-13 11:53:04
刚才我把我的服务判断为垃圾邮件的11246封邮件
进行了统计
其中包含有cid的邮件为4057封
而cid中把正常邮件判断为垃圾邮件的为3封
没有判断出来的
现在我无法统计
yulc 回复于:2007-03-13 11:58:21
这个贴子热闹,留个名。
谈到反垃圾邮件,我记得在www.verycd.com的某个网页底部有这样的话:
引用:
[email]xxx@xxx.com[/email] (注:此mail地址在此守株待兔,发往此信箱的地址将全部列入黑名单)
虽然是被动的,但当时还是被震惊了一下,好办法呀!哈哈
abel 回复于:2007-03-13 12:01:55
引用:原帖由 vyouzhi 于 2007-3-13 10:39 发表
to abel 大哥
你忘了一件事,你研究的都是垃圾邮件的,你可能没有研究过正常邮件
如果正常邮件中都是html镶入图片的,那么cid又是如何变化的呢?
这个你应该没研究过吧,就好像我自己的规则一条,我把 ...
1. 我認為正常的 html 含圖片郵件根本就不太會出現 cid: 這種東西
2. 你認為正常的郵件就是真正的 spamer 要做的事,他就是要讓你覺得正常,這也是常見的手法
3. SA rawbody 這些我了解,但是如果加上 multi-part ,html 的變化或換行控制,那就不一定了,而且一些
s/mime 的技巧也可以 break 這個東西,那是因為你前面說不用 SA 只用一般的 pattern 所以我才講
multi-part 的東西
Example:
在 SA 中加入
rawbody IMG_CID /img.*cid/i
describe IMG_CID image src use cid
score IMG_CID 100.0
# "CRITICAL INVESTOR ALERT!" image spam - added dynamic image size
rawbody __IMG_CID1 /img /i
rawbody __IMG_CID2 /src.*cid/i
meta LOCAL_CRIT_INVEST_IMG (__IMG_CID1 && __IMG_CID2)
score LOCAL_CRIT_INVEST_IMG 100.0
describe LOCAL_CRIT_INVEST_IMG BODY: Contains image cid pattern
full IMG_CID3 /img.*cid/i
describe IMG_CID3 image src use cid
score IMG_CID3 100.0
body IMG_CID4 /img.*cid/i
describe IMG_CID4 image src use cid
score IMG_CID4 100.0
Spam Pattern:
-----=_NextPart_001_0011_01C7641A.6A5BD900
Content-Type: text/html;
charset="windows-1250"
Content-Transfer-Encoding: quoted-printable
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=3DContent-Type content=3D"text/html; charset=3Dwindows-125=
0">
<META content=3D"MSHTML 6.00.2900.1106" name=3DGENERATOR>
<STYLE></STYLE>
</HEAD>
<BODY bgColor=3D#ffffff>
<DIV><FONT FACE=3D"Arial, Verdana" size=3D2>Hullo, Peter, she replied faint=
ly, squeezing herself as small as blew open as of old, and Peter dropped on=
the floor. think of anything to say, she simply bowed, and took the thimbl=
e, dotage, knowing neither the crime imputed her, nor its punishment;</FONT=
></DIV>
<DIV><FONT size=3D2><IMG alt=3D"" hspace=3D0 src=3D"=43=
=
=
=
=49
=
=44:0013=
01c7641a$6a5bd9=
00$086a7544@nolo" align=3Dbaseline border=3D0></FONT></DIV>
<DIV><FONT FACE=3D"Arial, Verdana" size=3D2>By this time she had found her =
way into a tidy little room with antipathy of her brother; the similarity o=
f their dispositions made with an inherent brightness; the greater stars we=
re burning in their began to cry again, for she felt very lonely and low-sp=
irited.</FONT></DIV>
which one matchs the rules ?
結果是沒有
Report:
pts rule name description
---- ---------------------- --------------------------------------------------
1.1 EXTRA_MPART_TYPE Header has extraneous Content-type:...type= entry
-2.6 BAYES_00 BODY: Bayesian spam probability is 0 to 1%
[score: 0.0071]
0.0 HTML_MESSAGE BODY: HTML included in message
1.9 DNS_FROM_RFC_BOGUSMX RBL: Envelope sender in bogusmx.rfc-ignorant.org
5.0 RCVD_IN_T1_RBL RBL: this IP listed by t1.dnsbl.net.au
[190.44.109.134 listed in t1.dnsbl.net.au]
3.9 RCVD_IN_XBL RBL: Received via a relay in Spamhaus XBL
[190.44.109.134 listed in sbl-xbl.spamhaus.org]
後兩個是我自己加上去的 RBL, 所以這個例子才能被檔下來,其他的什麼 smtp check (這也不過是思兄或
163 的做法而以)它都通過了才來到SA 的部份,如果照一般的 預設的 SA,就算加了 cid 那段也檔不下來
這封 spam 還有 SPF 記錄呢 ! (這個壇子誰有建 SPF 呀,我看不超過個位數),連 263 都沒有,這也算專業?
orbweb.net "v=spf1 ip4:38.113.1.0/24 ip4:38.113.20.0/24 ip4:65.254.224.0/19 ?all"
4. js/css 的 spam 控制方法以後一定會出現,因為這個可以有效對抗常用的 pattern match 手段, 用程式
來控制肯定讓你連 match 的機會都沒有
abel 回复于:2007-03-13 12:19:42
引用:原帖由 思一克 于 2007-3-13 11:01 发表
ABEL,
你连基本的SPAM原理都没有搞懂。
一个好的SERVER正常情况下会发垃圾吗?如果你不断发垃圾,好的SERVER也就变成了坏的,对方不阻挡你的FROM甚至IP地址? 还会让你继续“实验”?
一个在公司的正常 ...
我看你跟本不懂得什麼叫跟著時代走! 現在大卡的 spam vendor 多是走 zombie 路線,你封的了呀 ?
spamer 搞一堆 zombie computer 搞什 smtp 認為的 好的 Server 有什麼困難呀!
誰在和你用自己公司的發,你以為現在那些 image spam 不照 smtp 走呀 ? 他都照了,講半天你還看不到重點呀
好的 不是就是我現在用的,而是一個照著 RFC 及慣用習慣的 smtp server , Spam tools 要搞成這樣都
巳經有現成工具,還跟你慢慢搞一個 MTA ? 得了吧
你的邏輯和 vyouzhi 有什麼差別 ? 你是封黑的,他是開白的, 原則上並沒有什麼不同
今天你還做 rate control, 花了一年後你總算從這一篇解脫了
http://bbs.chinaunix.net/viewthread.php?tid=757289&extra=page%3D2%26filter%3Ddigest&page=2
早四年前 sendmail 早就實現了!
在我來看,你的做法極其原始呀,不照 smtp 來走封了這沒有什麼困難,那家 antispam 沒做 ? 我個人都做了這
有什麼了不起? 黑名單白名單更無可言,誰不是這樣,內容不檢查才是 163 最大的敗筆,你的 ST-MAPS 也沒有
檢查內容,碰到好的僵屍大軍不也是照單全收
6 年前我就做得到 99%,各種控制措施都做得很好,那個年代還沒有 SA 呢! 內容對我更不是問題
因為我的作法就和 SA 差不多!
思一克 回复于:2007-03-13 12:45:27
TO abel,
我大概知道你不相信原因了---- 因为你SERVER太小了。我原来就说过,一个30几个用户的SERVER无法看到全局的情况。3000个用户就可以。
你一周160个图片垃圾。人家1个小时也比你多。根据如此少的垃圾你永远也得不到正确的反垃圾方法。
垃圾邮件都是由专门机器不断发,大量发的。量大了,统计规律就出来了。还有RATE CONTROL等技术对于太小的SERVER,太少的垃圾也不起太大作用。
这里有一个统计学的问题。比如我说从高空一个点扔沙子,95%的沙子都会落到一个固定大小的圆中。前提是沙子必须多。如果太少,规律不成立。
你一周160个,根据这个研究识别,不是说绝对不可以,但是很难得到正确的方法和结果。如同扔了10个沙子,说,你看不符合规律呀。
其它的不需要争辩什么了。我一开始就没有说要说服你。但是我必须重复说明的是:
现在有反垃圾系统(肯定超过一个)产品或服务,阻挡垃圾邮件有效率(包括图片的)达到95%。如果全是图片垃圾也一样达到)反垃圾的如果象你说的70%就什么也别做了。回家玩去吧。世界上许多公司的反垃圾工程师的智商没有你想象的那样低。
95%的比例是留有余地的。是保守些说的话。
“因為只因為我只要搞一個 好的 Server 他們就癈了,不是笨蛋嗎 ?
你以為只有你懂 smtp 的技術呀 ? 我最近一週內收到 160 個 image spam
其中 143 個被檔下來了,而有 17 個 pass 過去了,這些被檔下來的因素只是因為非圖片的因素,
pass 過去的是因為沒有使用 cid , 17 個 passwd 過去的 ehlo 是標準的, IP 有反解,沒有在 RBL 裏
mail/rcpt 也都是對的,也對應了 Header 中的 From/To .... , 這 17 個還有 12 個有 SPF record,
你在那裏牛什麼 ? 這些東西你檔得下來 ? 一直講一堆叫人試,我試了 163 結果是笨蛋結果,對沒有圖片的
BIG5 Spam 還不是照樣 pass 過去”
vyouzhi 回复于:2007-03-13 12:56:48
to abel 大哥
我测试过你的 Spam Pattern: 部份,SA真的是认不出来
呵呵,看来我还得好好的学习才行
abel 回复于:2007-03-13 13:10:33
引用:原帖由 vyouzhi 于 2007-3-13 12:56 发表
to abel 大哥
我测试过你的 Spam Pattern: 部份,SA真的是认不出来
呵呵,看来我还得好好的学习才行
但是那些變異的行為是可以正常顯示原來的那封郵件的,一點影響都沒有
這個例子只是一個基本的 QP 變異而以,還沒有看到其他的結果
abel 回复于:2007-03-13 13:26:51
引用:原帖由 思一克 于 2007-3-13 12:45 发表
TO abel,
我大概知道你不相信原因了---- 因为你SERVER太小了。我原来就说过,一个30几个用户的SERVER无法看到全局的情况。3000个用户就可以。
你一周160个图片垃圾。人家1个小时也比你多。根据如此少的垃圾 ...
我一個人一週 160 圖片是進到 SA 的,其他非圖的 SA 一天就不只 300 個,
在 smtp 階段被 reject 的更是這個的兩倍(這些就不知和圖是否相關了),同樣的東西以前我也跑過
5w user 的,你不需要斷章取義吧,這事你也很清楚呀,
你以為規模大說的話就大聲 ? 別說笑話了,能力,見解,驗證上從過去到現在也看過你出了不少醜呀
我們單位的屬性面對是世界性的交流,不是 local 的單純語系, 英文郵件 (spam or ham)遠比中文多,面對的
廣度更不像一般 Local 性質 mta.
就像上個給 vyouzhi 兄的舉例,人家樣樣符合 smtp 規範. 你那一條 rules 可以檔到人家 ?
最後還不是舉報或手動的方法去做? 這和 2000 年的做法有什麼差別 ?
你以為好的 server 就不會送,連新的趨勢都不注意
abel 回复于:2007-03-13 13:30:01
話說回來,講一堆,思兄數了一堆 % , 所言實在和圖片 spam 沒有什麼關係,
前一兩帖還是,後面就顧左右而言他了,以前帖子,過去的討論就是這個風格了
maypower 回复于:2007-03-13 13:40:34
95%完全没有问题呀,
我公司是邮件运营商,10万以上用户。现在使用SXXXTEC(美国产品)产品,图片垃圾有效拦截率大于95%完全可以做到。
国外的垃圾邮件大多是图片的,如果做不到95%以上,怎么当产品来作。
w4ngdc 回复于:2007-03-13 13:58:54
和abel一样,我对image spam的catch rate持悲观态度,不过我相信个别场景可以获得较高的catch rate,记得上边有个极端的操作,把包含image的邮件全部过滤掉,那样catch rate就达到100%,不过false positive可能就出来了。查了个资料,http://biz.yahoo.com/iw/061115/0184588.html, 有一句:
IronPort's Patent-Pending Technology Stops 98% of Image Spam; Twice the Catch Rate of Any Other Enterprise Class Spam Product
IronPort这个公司被cisco收购了,从这个数据看,它的是98%(不排除吹牛的成分),两倍于其他产品,其他也就50%。
总的spam,我相信大多数商业软件都可以90+%的catch rate,并且false positive可以保持在一个很低的水平。
abel 回复于:2007-03-13 14:01:23
你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術
w4ngdc 回复于:2007-03-13 14:11:13
还是我上边提到那片文章,2006年10月,image spam的比例大约是25%:
Image spam reached a new high of 25% of total spam volume in October 2006 compared to 4.8% in October 2005, an increase of 421%.
引用:原帖由 maypower 于 2007-3-13 13:40 发表
国外的垃圾邮件大多是图片的,如果做不到95%以上,怎么当产品来作。
abel 回复于:2007-03-13 14:17:49
引用:原帖由 w4ngdc 于 2007-3-13 14:11 发表
还是我上边提到那片文章,2006年10月,image spam的比例大约是25%:
Image spam reached a new high of 25% of total spam volume in October 2006 compared to 4.8% in October 2005, an increase of 421%.
謝謝 w4 兄的資訊,這個我倒是沒有看過實際的數字,
但很明顯的這個成長是明顯的,成長的原因應該就是成功寄達 user mailbox 的有效性比傳統的 spam 提高
思一克 回复于:2007-03-13 15:55:25
Abel,
95%图片垃圾邮件阻挡,我说比例应该是留有余地的。也就是说比95%这应该高。
没有什么可讨论的。
思一克 回复于:2007-03-13 16:11:44
Abel,
1)完全基于内容文本图形识别的反垃圾不可能有好的效果---这才是过时的成年技术--要被淘汰的
2)不基于内容仅仅根据IP FROM等信息阻挡垃圾的系统也不是一个好系统--甚至不算一个完备的反垃圾系统
3)好的系统必须是各种技术的完美的结合。
“你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術
”
思一克 回复于:2007-03-13 16:18:21
TO Abel,
你实验个啥? 5万用户,你晓得每小时进入多少垃圾邮件吗?
你发进来那几个图片即使发到用户信箱了也不影响什么。何况人家系统还会自动将你的IP封掉。
这种实验基本没有意义的。要看结果,是要使用他的邮箱看有无垃圾。
"
你是運營商,那不如開個帳號給我再說吧
讓我這個大反派試過了再說,希望這個結果是基於內容的,而不是什麼黑名單這種成年技術"
思一克 回复于:2007-03-13 16:40:54
W4你好,
你说极端的情况将图片一律BLOCK掉不是一个反垃圾系统的做法。如果这样,我可以100%阻挡图片垃圾---没有意义的。
正常的系统阻挡显然说的是不影响正常的邮件。反垃圾就是不能错误阻挡。一个系统运行起来不应该错挡。宁可放过,也不能有错误。
abel 回复于:2007-03-13 16:47:09
引用:原帖由 思一克 于 2007-3-13 16:11 发表
Abel,
1)完全基于内容文本图形识别的反垃圾不可能有好的效果---这才是过时的成年技术--要被淘汰的
2)不基于内容仅仅根据IP FROM等信息阻挡垃圾的系统也不是一个好系统--甚至不算一个完备的反垃圾系统
3)好 ...
想不到你永遠這麼斷章取義呀,
回頭看看我寫的東西吧,別再這麼言之無味了
abel 回复于:2007-03-13 16:49:05
引用:原帖由 思一克 于 2007-3-13 16:18 发表
TO Abel,
你实验个啥? 5万用户,你晓得每小时进入多少垃圾邮件吗?
你发进来那几个图片即使发到用户信箱了也不影响什么。何况人家系统还会自动将你的IP封掉。
这种实验基本没有意义的。要看结果,是要使 ...
在我的眼理,根本就做不到,何必找一堆理由呢?
實踐是最好的真理,明眼人一看就知道怎麼做的
思一克 回复于:2007-03-13 17:13:01
Abel,
是的实践是最好的检验。可是你实践的了吗?你发几个图片实验叫实践吗?你如果是垃圾发送公司就可以实践了。
仅仅发几个自己的实验垃圾别人系统可能都不理睬。比如有人在sohu.com注册一个帐号,发几个培训广告,系统可能都放过去了(如果发1000个就不行了)。
放过去也不影响阻挡垃圾的百分比。每天那么多垃圾(2000用户系统周六周日两天可以有2万多平均每人10多个),你发那几个不影响什么。更何况,基本没有人这么实验的。
关键就在这里。你实验163的0%阻挡率的原因也在这里。你实验多了,人家就挡掉你的IP了。
“在我的眼理,根本就做不到,何必找一堆理由呢?
實踐是最好的真理,明眼人一看就知道怎麼做的”
枫影谁用了 回复于:2007-03-13 17:59:52
AbEl
不玩啦:em16:
咱还在收呢?
你用的发垃圾的程序是啥呢?:em16::em16:
枫影谁用了 回复于:2007-03-13 18:40:42
停了!
676 VS 31
xingcw 回复于:2007-03-14 08:51:38
色情邮件发送率降至历史最低点 IT世界网 2007-3-13 09:58
对二月份的垃圾邮件进行了测算,在整个邮件总数当中,垃圾邮件占了百分之七十。而在这些垃圾邮件当中,有百分之三十八的垃圾邮件是以图片的形式向外传播,这是对目前最先进的反垃圾邮件软件的一个挑战,同时也增大了打击垃圾邮件的难度。 来自邮件过滤公司(该公司对二月份的垃圾邮件作了一项调查,... >>2条相同新闻
http://www.it.com.cn/f/network/073/13/392854.htm
[ 本帖最后由 xingcw 于 2007-3-14 08:55 编辑 ]
beerpapo 回复于:2007-03-14 11:31:29
大家讨论了那么多,对于反图片垃圾邮件有什么可行的解决办法吖?除了商业的应用外,难道目前就只能
1.封all IP,然后用RWL
2.过滤所有带图片的邮件
......
[ 本帖最后由 beerpapo 于 2007-3-14 11:35 编辑 ]
abel 回复于:2007-03-14 13:42:40
我認為沒有什麼好辨法
雖然多數的 spam 都可以被判斷到,但漏網的多是 images spam
abel 回复于:2007-03-14 13:47:18
引用:原帖由 枫影谁用了 于 2007-3-13 17:59 发表
AbEl
不玩啦:em16:
咱还在收呢?
你用的发垃圾的程序是啥呢?:em16::em16:
我發的程序很簡單:
echo "select FILE_NAME from SPAM where FILE_NAME<>'' order by CREATE_TIME desc limit 1000" | mysql SPAM -u abel -pXXXX | grep -v FILE_NAME | while read f
do
cat $f | formail -I "To: XXXX@yourdomain.com" | \
sendmail -oi XXXX@yourdomain.com -f abel@mydomain.net
done
這個程序發出來的信會 Trace Field 有帶有 localhost 字眼,
這個我沒有去調他,估計調了他進去的比例會更高些
[ 本帖最后由 abel 于 2007-3-14 13:49 编辑 ]
vyouzhi 回复于:2007-03-14 14:34:16
我简单总结一下
LZ的问题为: 如何反图片垃圾邮件,mail 服务器只提供自己公司用
下面为大家讲座的结果:
一、思一克 兄提出采用商业的反垃圾邮件系统,这些系统对图像识别能力可以达到90%以上
二、abel 兄作出反对商业系统还不可能达到90%以上的图像识别能力
三、我和别的兄弟提出另一些的解决方案
(1)uxu 兄(30楼)提出附件中不能带图片
(2)我提出以白名单的形式,(如果公司用户不多,或者可以捕获足够多的邮件地址)
(3)我提出在SA中测试cid的方式,最后abel兄提出base64 , qp编码的垃圾邮件SA无力测试,这个我也证实
上面,一点,在整个过程没有给出足够多的例子证明,二点,abel兄用163.com之类的邮箱证明163.com没检查图像内容,
三点,或者提出一些方法,但缺点也大。
(完)
看看大家还有什么要补充的
红雨 回复于:2007-03-14 20:01:47
我现在换用IMSS,基本解决图片垃圾邮件问题。
beerpapo 回复于:2007-03-15 00:12:27
趋势科技的 InterScan Messaging Security Suite for SMTP ?
思一克 回复于:2007-03-15 10:44:35
使用商业的关键是测试。你不用让他们给你安装,仅仅给你一个反垃圾GATEWAY(他们十分容易地用他们的反垃圾系统构造一个反垃圾GATEWAY供测试用----他们可能有永久的做测试的)。然后将你的MX指向GW,他做设置。
实验一个月(实际不用这么长时间)。你一定知道他的结果。实验几个,看哪个效果好。
不要听SALES的自我吹的比例。要自己感觉,自己判断。
ctuyoung 回复于:2007-03-15 11:04:43
思一克,你现在是不是被敏讯招安了啊?假如是的话那就好玩了,敏讯不是整天宣扬它的行为识别么?:D其实说白了就是根据mail from域名解析出来的MX或A记录的IP网段来和SMTP会话IP地址作比较,以此来判断是否是垃圾邮件,然后再加一些诸如yahoo.com之类的特殊处理以及IP地址反解查询的东东规避误判。哈哈,我说得没错吧?你说sales给试用对吧?那敏讯在企业邮箱上使用的效果怎么样啊?给点运营商级别的案例出来看看哦
思一克 回复于:2007-03-15 11:23:38
to ctuyong,
你好。我只是在网络上看过有什么敏公司。没有任何招安的问题。在说即使认识,也决不做这事情。
我自己有我自己开发的系统。我说的效果是根据自己系统的判断,而不是任何其他的。但是我相信其他的也可以达到很好的效果(比如图片垃圾阻挡95%,等)。因为我有朋友用过,因为我相信人家开发的东西--比如那个863项目XXX系统的服务,比如163自己的邮件系统等。因为我认为他们都很有水平。
至于行为识别的问题。不是你说的那样简单的。或骗人的。
1)仅仅根据文本内容(包括OCR出的)识别来阻挡垃圾的系统一定是无法达到高有效率的和将要过时的。
2)仅仅靠行为识别而不识别内容的系统也一定不是一个好的完善系统。
一个好系统必须综合现有的各种技术。而且综合的要巧妙。
abel 回复于:2007-03-15 11:53:10
僅僅 ?
誰在用這種僅僅方法呀 ?
不需要在這裏吹吧 ? 你用的方法和我的方法有什麼差別 ? 沒有呀
我看那些 antispam 不過就是名詞翻新而以,做法還不都是差不多,最後就是看誰的黑名單多而以,
這有什麼了不起的方法 ?
大家作法都一樣,但是你沒有內容檢查,在 公安部 "信息安全技術反垃圾郵件客戶端產品檢驗規範" 第4節和
增強型的要求上你做不到,我自己還做得到,那份要求要5年前我就都做到了,比起專做 antispam 你的
ST-MAPS 還要早,還要好上許多!只是我不做產品而以
不是我愛批評,而是你老是曲解別人的話,有本事拿來給我測 (還得看我有沒有時間),就像ctuyoung 講得那些什麼
行為識別還不是癈物一個
思一克 回复于:2007-03-15 12:05:59
Abel,
从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。
可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研究。
你测试163的阻挡结果 0%, 你也敢说出来?不怕人笑话。
你发几个图片垃圾测试163,无论是否发到信箱都没有什么特别大的意义。
打个比喻,有人说海面是个球面,你非不相信,找来水平尺,经纬仪,标杆,甚至激光测距,划船测试,然后用几何计算,得出结论,海面就是平面。---- 这些测量计算是没有意义的。
abel 回复于:2007-03-15 12:33:01
引用:原帖由 思一克 于 2007-3-15 12:05 发表
Abel,
从一开始也没有想和你辩论什么。其它人(公司)都是废物一堆。只有你不是。
可是从你的前几个帖子我就明白了,你研究反垃圾邮件仅仅是最初等的水平。
不是你水平不行,而是在30几个人的设备上无法研 ...
老大呀,你何必永遠忽略過去我做5萬人的經驗呢 ? 又是一堆斷章取義/顧左右而言他的方法
163 在我來看結果就是 0%, 這個結果沒有什麼問題,
如果我是初等,這裏許多朋友,包括你恐怕連初等都沒有吧
你好好把公安部的東西看過吧,你連增強型都沒達標,這東西五年前我做得到,
你到今天還沒有實現吧 ! 五年來我那可能還在原地
前面早就說過了,圖片做到 90% 以上就是看不過才吐你槽
人家用好的 Server (搞一推 zombie) 發圖片 (目的就是讓關鍵字放到圖片裏) 你欄得得到 ?
等你加了黑名單,幾十萬台讓你或百萬台讓你慢慢加吧,zombie 持續增加中,你也增加中
加到你跑不動再說
思一克 回复于:2007-03-15 12:39:16
那我问你,
要想90%阻挡图片垃圾,是不是一定要OCR识别出90%的文本字符才可以?如果OCR识别率不到90%,那么阻挡90%的图片垃圾一定是空想?
abel 回复于:2007-03-15 12:55:18
我認為就 OCR 中的字 90% 字認得出來也不可能做到 90%! 沒法全部認出就做不到像一般非圖片的結果!
而何況現實中 OCR 裏的東西跟本連50% 都做不到,經過精心處理的大概連5% 都沒有
如果做得到 ms 和 google 找就可以做到圖轉文,文轉圖了
你不用在講那些什麼檢查,有的沒有了,你連增強型都做不到還來說別人呀,
我看思兄總是言不及義呀,這兩年我們的交手你永遠都是老樣子呀
言不及義,顧左右言他
思一克 回复于:2007-03-15 13:14:21
Abel,
你完全错了。我不在和你谈这个问题了。我没有想到你竟然。。。
模式识别你知道?我问你,人们星期一早晨上班看自己INBOX中花化绿绿的垃圾(比如卖伟歌,股票的那种),立即删除了。人们是将图片中的文字详细读一遍(眼睛头脑中的OCR)才判定是垃圾的吗?
事实上,根本不需要详细读出。
退一步说,一个OCR将图片中文字仅仅识别了10%,比如将“A LALFS ABCDEFG STOCK OPTION”识别成了
??=+STO%%%%。
只要该10%的识别率是稳定的(对于目前的比较大部分垃圾图片可以找到稳定的部分),那么就根据该错误识别的字符串不就可以100%地阻挡该图片垃圾了?
也就是说,对于某类垃圾,10%的字符识别正确率,可以阻挡100%。
不和你费口舌了。没有想到在垃圾邮件问题上你的思维如此呆滞。
引用:原帖由 abel 于 2007-3-15 12:55 发表
我認為就 OCR 中的字 90% 字認得出來也不可能做到 90%! 沒法全部認出就做不到像一般非圖片的結果!
而何況現實中 OCR 裏的東西跟本連50% 都做不到,經過精心處理的大概連5% 都沒有
如果做得到 ms 和 google 找就可 ...
abel 回复于:2007-03-15 13:28:13
引用:
你完全错了。我不在和你谈这个问题了。我没有想到你竟然。。。
因為你根本言不及義,拿公安部出來打你只是要形容你自己做出來的產品極其陽春
算了,都以你說的為準,只有一句話,千萬不要自己為是,自己專做 antispam 就認為別人非以 antispam 為主要工
作的人比不上你,你投入 80% 所做的事情在我自己來看不過投入了 20%,甚至做得比你好,比你早!
引用:
只要该10%的识别率是稳定的(对于目前的比较大部分垃圾图片可以找到稳定的部分),那么就根据该错误识别的字符串不就可以100%地阻挡该图片垃圾了?
你認為這句話解釋的過去 ? 這就是你的看法 ? 我看算了吧, "识别率" 這種東西想想 spamer 的心態吧
這也太牽強了吧,用 spamer 的角度去思考這個問題吧!
思一克 回复于:2007-03-15 13:52:21
有些垃圾为了不让OCR识别出稳定的部分,加了很多花边干扰。但这使得垃圾自己也不容易被接受者看清楚,广告效应就差了。
但是有很大比例种类的垃圾图片还是可以识别出稳定的部分。
----这仅仅是方法之一--- 是退一步讲的问题。方法是很多的。
abel 回复于:2007-03-15 14:15:22
引用:原帖由 思一克 于 2007-3-15 13:52 发表
有些垃圾为了不让OCR识别出稳定的部分,加了很多花边干扰。但这使得垃圾自己也不容易被接受者看清楚,广告效应就差了。
但是有很大比例种类的垃圾图片还是可以识别出稳定的部分。
----这仅仅是方法之一--- ...
我看你的思考還是沒有進步呀, 前面早就說過了,灰階處理會讓人看不清楚 ? 粗體,斜體,變大變小(不差太多),班點...色調對換...文繞圖,圖繞文還不夠嗎 ?
再來,一個圖拆成3個給你 (目視像一個,但實際是三個) ,不夠? 一個字就是一個圖也行 ...
還不夠 ? 還有語系的問題,底圖的問題 ...一堆問題
(只要想想你住家的信箱廣告傳單的多樣性吧,你想的事只是一張白紙上寫上方方正正的字)
可是你巳經忙死了,因為應接不暇呀...
你只看到眼前的,卻不會思考到以後的,今天不是沒有這些例子,只是比例還很低而以
antispam 就是為了應付 spam , 而你就像標準做 antispam 的人,只看到眼前,
永遠都在應付 spam
如果一個圖片對字的識別率是 10%,就像一般的文字結果一般
如果你對文字內容只抽樣(不同的位置)10%,那就算原來 98% 的文字過濾技
術,平均理論值只會低於 1%,而不是最理想的 10%,那根本是作夢,高於 10% 那更是白日夢了
我看是你的推論才充滿了問題,和太多假設性,也不怪你,
因為你根本沒有內容過濾方案,所以無法體會
大大狗 回复于:2007-03-15 14:20:27
厉害 都讨论到100++ 的楼了
思一克 回复于:2007-03-15 14:41:29
你如何知道我的系统没有? 我还用找出几个人(也是CU人)证明才算数?
我一开始就没有让你相信我。现在也没有。
ctuyoung 回复于:2007-03-15 15:08:35
.....
[ 本帖最后由 ctuyoung 于 2007-3-26 11:18 编辑 ]
abel 回复于:2007-03-15 17:49:51
引用:原帖由 思一克 于 2007-3-15 14:41 发表
你如何知道我的系统没有? 我还用找出几个人(也是CU人)证明才算数?
我一开始就没有让你相信我。现在也没有。
你自己回頭看看自己寫的東西,你否定過去自己所說的話 ?
你根本沒有花什麼時間在圖片的問題上,什麼行為識別 面對的也只是笨蛋的 spamer 而以
至於 cty 兄的看法,
引用:
我对思一克的一些观点还是蛮赞同的,比如说邮件在入队前就识别是否是垃圾邮件并直接拒绝,而不是等入队以后再来分拣
這做法有什麼疑問呢 ?
我自己的例子來說,
http://211.72.210.251/list.html
smtp check 不過就 rejection, 過去的就 Scoring, Scroing 只要一次,而分發時再依個人設定
我們自己內部的版本連分數值都可以線上改(個人的 Require 或是單項的值)
不符合 RFC 規範的 Rejection 我認為天經地義,這也沒有什麼特別好說的
引用:
我的疑问是你这么多的反垃圾逻辑放在一张perl脚本中你能将他们管理好吗?
cty 兄不知我的風格,程式化的目的重點之一是要讓資料和程式分離,東西 (data)是用到的時候再去 DB 讀,
不是全寫在程式裏,當然有些固定的東西是可以寫在程式中,如 ehlo check 的 regexp ,但像動態 IP 的反解
suffixs 全球都不同,我收集了數十個,都放在 DB 中只要反解是這個的就檔掉
什麼人做 gmail 收或發備份的條件從網頁上設一設,也是進 DB, 程式再讀出來而以
什麼行為識別,白名單,黑名單都做完,最後再做 SA 工作, 做完了才進
Local Delivery ,再進行分類之歸檔,程式和資料的抽離,再多加考慮效率問題,其實這些東西並沒有什麼
我的 perl 程式實作 SPF Check, Domain Keys sign/verify , 總長度還不超過 200 行呢!
引用:
但是microsoft style的boundary string是有隐藏规律的
你知道的事 spamer 也是會知道了,你能演算,他也能演算,這不可能是個好方法
ctuyoung 回复于:2007-03-15 18:31:57
......
[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]
abel 回复于:2007-03-15 19:25:40
了解,我的代碼有數個版本,也有 procmail 實現的版本,也有開發中的,實戰型的通常是以 DB 化為主的版本 (這種版本不易讀,因為要看 DB 結構),不過真的怒我不知道您指的是我曾公布的那個版本? 因為我現在的版本跑得是 DB 和 DK+SPF 的結合,不過原則都是一樣的,效率的調控在我的系統上目前還不重要(因為日進5萬左右的 mail 實在還很優閒,另外還跑許多程式)
至於 SA 就要看每個人使用什麼手段及郵件系統整個架構了,
不過 perl 的效率是不如 C 來得快 (那也得看算法及精簡度),任何 content scan 都會
吃 resource, perl 在 regexp 為體現表現的速度及效率都還是相當高的
C 的我以前也有寫過,不過實在難以 maintain ,隨便一個 DomainKeys 都要上千行程式 , 不如 perl 來得直觀,
效率不是我目前要考慮的問題,當然,如果真的要考慮,也是在使用加速模組及 OBJ 化後無效後才要想的,目前我則
尚未遇到,因為我根本上就不做產品
至於您提到的 "各种手段之间的相互绝缘吗?" 這句話我不太清楚,您可以稍微解釋一下嗎 ?
antispam 是追著 spam 跑,但對於少數特殊化的 spam mail (像我前面舉的一些例子) 往往還是不夠力
因為那些可能才剛發生, antispam 的方案還沒追上,或還未被重視,
MUA 並不只有 MS Outlook,, MS 不是只有 2000 ,XP..版本 ,Thumdbird, Netscape, foxmail 但這些豈
有規律可言, Linux 上的呢 (我不知道,所以請教您) ?
Outlook 2007 即將面世,支援 IDN 的 puny email address ,這在你們 (做 antispam 為本業的朋友) 來
看都可能會是挑戰,不知您們如何面對呢 (通常都是先有 spam, 產品,才會有對策)?
以後 (估計兩年後), Local-Part , Header Value 都可以是 UTF8 ...
至於您其他的觀點我都相當同意,MS OE 有規律我知道,不過我不清楚其算法
附件是我的 MTA 運作情形(這也是自己寫的,而不是用套裝的,更不會花錢去買,支援 MAIL,SMS,MSN
等 alert,午夜0時有較多排程,所以 CPU 稍高,但連接並沒有多大的變動)
[ 本帖最后由 abel 于 2007-3-15 19:38 编辑 ]
ctuyoung 回复于:2007-03-15 20:45:14
......
[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]
abel 回复于:2007-03-16 16:15:07
引用:
To abel:
其实我所谓的“各种手段之间的相互绝缘”意思就是说么一种反垃圾逻辑都是独立的,举个例子来说,有一种垃圾邮件特征比较明显,
Message-ID: <674a01c763d2$15add154$[email]a4a52c16@etang.com[/email]>
From: HGHLife <[email]bglenna@etang.com[/email]>
To: [email]lucindax@citiz.net[/email]
Subject: Decrease fat reserves
Date: Sun, 11 Mar 2007 14:40:31 +0300
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_NextPart_000_0000_0E1EF4BF.B3F3987D"
X-Priority: 3
X-MSMail-Priority: Normal
X-Mailer: Microsoft Outlook Express V6.00.2900.2180
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.2180
这个MIME head中的所谓的boudary string看上去好像是符合MS Outlook Express生成的
邮件特征的,但实际上真正的MS OE是不可能产生第二段的"_0000_"的,一般都是类似于
"_0034_"的,当然还会有其它的一些特征啦,我们一般会将这种特征识别逻辑 coding在
一个plugin之中,不同的plugin之间是没有任何联系,这样的话source code就能够按照
plugin来进行classify了,就像你说的很好地maintain了。以后假如这种类型的spam消失
的话,那么我们就将这个 plugin作废,就像你所说的追着spam跑
不同的X-Mailer特征都不一样的,我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征,一般不会去对特定的MUA的做限制的,因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战,不过没关系,船到桥头自然
直,方法是人想出来的,不是吗?
苦呀~我本來打了好多要回給您,可沒想到 NB 竟然給我當機 =-=
確實,我並沒有實作 Modules/Plugin ,不過這種東西您看過的程式裏,應該可以注意到,
多數的東西我是從第一層開始 'if' 的,前後的東西都儘量不寫在一個大的 if 中, 絕緣
問題我在寫時有想過,只是沒有想到要實現他,畢竟它並不是產品,只是一套自己使用的東
西而以. 不過我這輩子還沒有做過什麼產品,工作七年幾乎就都是在現在的公司
不過人不能停滯不前,努力接收新知還是要的
引用:
不同的X-Mailer特征都不一样的,我们能做到的就是尽量寻找那些数量比较庞大的spam的特
征,一般不会去对特定的MUA的做限制的,因为指不定哪天这种MUA就变更了。所以你说的
office 2007, vista的windows mail确实对我们是很大的挑战,不过没关系,船到桥头自然
直,方法是人想出来的,不是吗?
這裏有些看法不錯,不過就我的經驗來看,X-Mailer 不見得會出現,也可能以其他的 header
name 出現 (Ex: User-Agent), X-Mailer 可能不是 MUA, 而是 PHP 或 Perl 的一些模組
等等, 而像不同的 openwebmail 版本其 boundary 算法可能都不同,如果這個東西能整理
出來,那巳經是不小的工作了,所以只能針對大量使用的 MUA 來進行判讀,可是像 yahoo 或
gmail 的判讀可能又不太相同,看來來似乎是一件不小的工程 (我沒做過,所以不知工程大小
及實作性程度,但對 OE 應該是有一定的效果的)
不過這裏一個個人的疑問,對於 folding/unfolding , 像一般您們做 antispam 是如何看待的 ?
是像 DKIM 那樣做 relaxed 或 simple 類的判斷 ? 或是根本不理會? (我想後者的可能性居多)
(這問題就像我前面提過的變形,內容可以有很大的變化,但是還是表示同一件事情),
以一般 SA 觀念 DCC 算法早晚恐怕也會有問題,因為它是假設在大量發送相同的內容,如果內容
有變異,那 checksum 結果也會不一樣,我知道市面上有些 antispam 產品是有類似的做法
引用:
做运营商级别的海量企业邮箱反垃圾最让人头大的就是misjudge,所以我们一般奉行的是无罪推
断,也就是说只有找到足够的特征,才能将这封邮件block掉,否则用户就要抱怨“怎么回事
情,XXX给我发邮件怎么发不进来”所以一般SA的score机制我们不大采用,不过也不绝对
我認為 block 有來種實現方法,一種是 rejection (r), 一種是 quarantine (q), 一般用到 SA
(或其他評分方案)都是後者 (q),行為識別則通常是 (r), 後者消耗資源這是公認的,理論上想要
愈準確就會消耗更多資源(Ex: MUA + X-Mailer + boundary 識別),最後的取捨都要經過微調
通常郵件量愈大的,通常就愈不考慮內容,不是不想做,而是副作用太多
引用:
有一种方法其实很好的,我们也是借鉴了某个非常知名的anti-spam provider的做法,好像
现在采用这种方法的gateway不是很多,具体的做法就是当gateway获得的spam特征不充分的
时候(例如: helo myxp),在\r\n.\r\n之后,gateway返回4xx system is busy now,
please try later ...之类的消息,让remote side进行retry,差劲一点的spam program是
不会进行retry的,其实就是grey-list的一种扩展啦,不过实际情况下效果却是蛮好的,对
于降低misjudgement是很有好处的。
我認為 grey-list (under mis-configuration) 是會有問題的, 以像我們單位而言,信件有
很大的比例是客戶服務,這個 grey delay 的動作會影響問題處理速度 (客戶端感覺),尤其在
mis-configuration 時,信件會根本無法傳送,暫時沒有退信,會讓 user 誤以為自己的信件巳
經寄出了,而若此時 grey-list MTA 有做 rate control, 那這種 delay 情況恐怕會更嚴重,
即使 admin 巳經 fixed 問題了,但信件恐怕仍無法及時投送完成.當然,對於 spam-ware 的東
西,這個是有用的,因其無 retry 機制
引用:
spam的locality是比较强的,比virus还要强。所以美国的好的产品到中国来就不一定有效了,
相信台湾的产品到大陆来也是差不多的,不过感觉上现在的zombie可能威胁更大,所以很多大的
系统动不动就down掉了,为了这个我们还专门开发了一个mail system专用的watch dog,监控后
端邮件系统的队列,我发现你的这几个chart很漂亮的说,是你自己画的吗?(Y)我们也有类似的
东东,不过你知道这种运行商级别的海量系统一般会要求看real state的,所以我们用widget做
了个实时的东东。以后多多交流哦
非常同意,
我們的 Server 做很多監控 (也是我一個人寫,人少就是這樣),就 mail 來說就不下十來項,畫圖
只是讓自己好看,重點在於情況的判斷準備度,誤報會讓人麻木,就像狼來了一樣,所以我在這方
面花了不少心力(不過這也不算我的主力業務),基本上可以控制誤報在 5% 以下,某些類別的警
告誤報率更可以低於 1%,圖我是用 rrdtool 畫的, 一般來說, threshold check & alert 是最難的
而看 mail 的連接除了用一些貴貴的設備外,其實 cisco 的 netflow 就很好用了,若搭配 GeoIP,
可以做的非常 fancy (我還沒做,主要是沒有時間).
與ctuyoung兄討論確實不錯,就事論事,觀點特別
starbear 回复于:2007-03-16 21:31:54
争论过程都看过了
有些东西不能光凭嘴皮子说达到多少,真正能让人信服的是事实数据(测试数据和实战数据),真正能以理服人。说实在,在这里说哪个产品拦截率是%多少,我也不信。用过一些厂家的产品,功能花哨,吹得天花乱坠,真正对于spam的识别,还真是惨不忍睹。图片spam我们单位当初对这个也是苦不堪言,后来干脆把所有gif suffix全部干掉,算是清净了。如果有什么好的产品或者方法可以阻止这些spam,请大家继续讨论,小弟洗眼恭听!!!!
思一克 回复于:2007-03-17 21:40:25
TO starbear,
理解你说的.
不能光凭嘴皮子说达到多少. 的确不少产品声称自己拦截率达到多少多少, 但实际一试用根本不是那么回事. 尤其是有些Sales为了推销, 将80%说成90%甚至98%. 如果你试用,比例没有那么高,他们可能说,"自学习"还没有学好,用一年后比例就高了. 你如果相信了,购买了,那么以后发觉受骗了或者想换一种产品,想退货是没有任何可能的. 十几完到几十万再不好用也只勉强继续用了.
但是,也不排除有产品和服务可以达到他们说的比例. 你可以通过给你提供反垃圾GATEWAY实验来了解真实性. 我也明白,一个流行了很久的疾病,如果有相当有效的药物出来了,一般人包括水平很好的人都不会相信的.
一个建议: 购买反垃圾产品如果防止受欺骗,可以
1) 要求免费提供拦截服务几个月,自己看效果是否真实
2) 即使觉得真实了,要求提供服务的服务一年,付一年款. 再服务一年,付第二年费用.
引用:原帖由 starbear 于 2007-3-16 21:31 发表
争论过程都看过了
有些东西不能光凭嘴皮子说达到多少,真正能让人信服的是事实数据(测试数据和实战数据),真正能以理服人。说实在,在这里说哪个产品拦截率是%多少,我也不信。用过一些厂家的产品,功能花哨, ...
ctuyoung 回复于:2007-03-19 08:58:27
.....
[ 本帖最后由 ctuyoung 于 2007-3-26 11:17 编辑 ]
xingcw 回复于:2007-03-19 15:44:03
ctuyoung: 另外我想请教一下现在我发现很多的台湾yahoo过来的垃圾邮件,是有人利用yahoo发送的,下面是我截取的一个样本,你有什么好的对付这些spam的办法吗?
我已预料到了这些SPAM会增加,请看
http://www.xingcw.com/vsvl/develop/spam-free-account.html
ctuyoung 回复于:2007-03-19 16:03:14
To: xingcw
老兄啊,你好像没有给出解决方案哦:D
THY 回复于:2007-03-19 16:24:10
图片的垃圾邮件要用指纹识别的反垃圾邮件技术,美讯智产品在这个方面做的比较好.你可以了解一下. 我这里有这个方面的资料.
MSN:songzhishun@hotmail.com
abel 回复于:2007-03-19 17:17:29
yahoo 那種例就就實際情況來說就是好的 server 而有不好的內容
這種東西我通常都是靠內容的方法而以,不然根本很難有效
還有一種方式是根據 Received ( yahoo 會把user 的 ip 寫進去第一個 Received)
來做判斷,不過其實這也是根據內容了,什麼好方法 ? 我想很難找到吧
DCC 那種方式或許目前還會有一點點幫助
ctuyoung 回复于:2007-03-19 17:35:53
哈哈,看来大家都没办法哦:D我们也没办法,现在只能根据截取样本,然后用keyword过滤,挺麻烦的:(
sosogh 回复于:2007-03-20 09:30:39
to ctuyoung 兄:
你提到的retrying机制是这样理解吗:
当gateway在SMTP session,检测对方的邮件各个方面,如果都是“规范”的,就不会要求对方retry,如果检测到那个邮件的某方面有“可疑”,就让对方retry?
谢谢!
ctuyoung 回复于:2007-03-20 11:33:40
......
[ 本帖最后由 ctuyoung 于 2007-3-26 11:16 编辑 ]
|