[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[connect24h:7294] Re: お勧めのSPAM フィルタ
- To: connect24h@xxxxxxxxxx
- Subject: [connect24h:7294] Re: お勧めのSPAM フィルタ
- From: Eisaku YAMAGUCHI <eisaku@xxxxxxxxxxxxxxxxxx>
- Date: Fri, 19 Mar 2004 02:18:19 +0900 (JST)
connect24h MLでは初めてかもしれない山口と申します.
# 作者のなべけんさんにもCc:しちゃいます.
bsfilter + Mew が基本的な環境です.
いちげんさんお断り方式のような方式でもいいのですが...
forwardされているモノの方が多く ;-< その対処がどうしても必要になるのと,
bsfilterをベースにしたspamフィルタをもっと鍛えたいということで,
bsfilterについてフィールドテストを行いながら横槍を入れている次第です.
From: Tietew <tietew@xxxxxxxxxx>
Subject: [connect24h:7285] Re: お勧めのSPAM フィルタ
Date: Thu, 18 Mar 2004 15:53:00 +0900
Message-ID: <20040318153723.B2A6.TIETEW@xxxxxxxxxx>
>
> Tietewです。
> 英文/日文spamはほぼ完璧です。
> 中文/韓文は英文と見なすので多少認識率落ちてしまいます。
これは,Ja or Other(==C)という判定をしているためなので,同様に
中文/韓文の判定ルーチンを組み込むだけの問題だと思います.
多国語への対応となると,それなりに必要となるCT:の整理や,CT:が宣言され
ていない場合などのDBをどのように管理するかというポリシを明確にしないと
クリアできない事項かと思います.
> 問題点としては:
> ・HTMLメールの処理が完璧じゃない。エンコーディングを誤認すると
> spam認定されることが。(infoseek の広告とか :-)
これは,パーサを忠実に実装する価値があるか否かですよね.
でも,最近はtagカテゴリを追加していただいたので,HTMLメイルの処理が
随分改善されたように思います.(個人的主観)
> ・最近流行の本文が短いワーム類は抜けてくる
個人的には,きちんと引っ掛かってくれています.
本文が短い or 無いメイルであっても,spamでないものはspamでないと判定さ
れていますので,ヘッダ部分の評価がそれなりに評価できる状況にあるようで
す.(これも個人的主観)
> ・SDBM が無限ループに嵌ることがある
これは誤解があるようです.
旧BBSをご覧いただくとわかりますが,sdbmの縮小処理の際に非常に時間がか
かり,以前はUltraSPARC 300MHz + Memory. 256MBの環境で,LANG=Cのspamの
DB縮小に7,8時間かかるような状況でした.
これは,DBからremoveするのではなく,新たにDBを再構築して頂く形に修正
いただくことで,7〜8時間が7,8分と,1/60の所要時間に改善されています.
無限ループでなく,多くの時間がかかって正常終了するのか否かを一度
ご確認いただくのが賢明かと思います.
Baysian spam filterが最善とは思っていません.
でも,改良を重ねたBaysian spam filterは道具としてはソコソコ使える環境
になり得ると思います.
-- EY 自己流改善案を積極的にcommitできていないのが心苦しいですが...
--[PR]------------------------------------------------------------------
☆.。.:*'☆ あ な た に も 癒 し を あ げ た 〜 い !☆..。:・.☆。
超簡単!なアンケートに答えてからだもこころもリフレッシュしよう!!
↓ ↓ ↓ ↓ ↓ 応募はこちらから ↓ ↓ ↓ ↓ ↓
http://ad.freeml.com/cgi-bin/ad.cgi?id=c9Qd5
------------------------------------------------------------------[PR]--
<GMO GROUP> Global Media Online www.gmo.jp