[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[connect24h:7294] Re: お勧めのSPAM フィルタ



connect24h MLでは初めてかもしれない山口と申します.
# 作者のなべけんさんにもCc:しちゃいます.

bsfilter + Mew が基本的な環境です.
いちげんさんお断り方式のような方式でもいいのですが...
forwardされているモノの方が多く ;-< その対処がどうしても必要になるのと,
bsfilterをベースにしたspamフィルタをもっと鍛えたいということで,
bsfilterについてフィールドテストを行いながら横槍を入れている次第です.

From: Tietew <tietew@xxxxxxxxxx>
Subject: [connect24h:7285] Re: お勧めのSPAM フィルタ
Date: Thu, 18 Mar 2004 15:53:00 +0900
Message-ID: <20040318153723.B2A6.TIETEW@xxxxxxxxxx>
> 
> Tietewです。
> 英文/日文spamはほぼ完璧です。
> 中文/韓文は英文と見なすので多少認識率落ちてしまいます。

これは,Ja or Other(==C)という判定をしているためなので,同様に
中文/韓文の判定ルーチンを組み込むだけの問題だと思います.
多国語への対応となると,それなりに必要となるCT:の整理や,CT:が宣言され
ていない場合などのDBをどのように管理するかというポリシを明確にしないと
クリアできない事項かと思います.

> 問題点としては:
> ・HTMLメールの処理が完璧じゃない。エンコーディングを誤認すると
>   spam認定されることが。(infoseek の広告とか :-)

これは,パーサを忠実に実装する価値があるか否かですよね.
でも,最近はtagカテゴリを追加していただいたので,HTMLメイルの処理が
随分改善されたように思います.(個人的主観)

> ・最近流行の本文が短いワーム類は抜けてくる

個人的には,きちんと引っ掛かってくれています.
本文が短い or 無いメイルであっても,spamでないものはspamでないと判定さ
れていますので,ヘッダ部分の評価がそれなりに評価できる状況にあるようで
す.(これも個人的主観)

> ・SDBM が無限ループに嵌ることがある

これは誤解があるようです.
旧BBSをご覧いただくとわかりますが,sdbmの縮小処理の際に非常に時間がか
かり,以前はUltraSPARC 300MHz + Memory. 256MBの環境で,LANG=Cのspamの
DB縮小に7,8時間かかるような状況でした.
これは,DBからremoveするのではなく,新たにDBを再構築して頂く形に修正
いただくことで,7〜8時間が7,8分と,1/60の所要時間に改善されています.

無限ループでなく,多くの時間がかかって正常終了するのか否かを一度
ご確認いただくのが賢明かと思います.

Baysian spam filterが最善とは思っていません.
でも,改良を重ねたBaysian spam filterは道具としてはソコソコ使える環境
になり得ると思います.

-- EY 自己流改善案を積極的にcommitできていないのが心苦しいですが...

--[PR]------------------------------------------------------------------
☆.。.:*'☆ あ な た に も 癒 し を あ げ た 〜 い !☆..。:・.☆。
 
超簡単!なアンケートに答えてからだもこころもリフレッシュしよう!!
↓ ↓ ↓ ↓ ↓  応募はこちらから  ↓ ↓ ↓ ↓ ↓
 http://ad.freeml.com/cgi-bin/ad.cgi?id=c9Qd5
------------------------------------------------------------------[PR]--
<GMO GROUP> Global Media Online  www.gmo.jp