SPAM対策
以前から送信元 IP アドレスからフィルタリングする Becky のプラグイン BkSAPil を使用してました。このツールは、集約し共有されているスパムホストの IP アドレス(ブラックリスト)を使用してメイルを振り分けるのだけど、個人的な環境での spam ヒット率が 7~8割程度あり、何も対処していないときに比べると格段にメイル受信後の作業が楽になった。おかげで 2週間くらいはウキウキしてましたわ。
さて、それはそれで満足していたのですが、最近某 ML で知り、さらには知人から知ったまったく仕組みの違うツール POPFile を試してみました。特に特別な指示をしてませんが、何度か振り分けミスの指摘をして 2個だけマグネットの設定をしただけで、現在のところ分類精度なんと 98.95%!すばらしい。
分類されたメール数: 1,913
分類エラーの数: 20
精度: 98.95%
まだまだ頭良くなるのかしら?
BkASPil for Becky!2
http://b2antispam.s33.xrea.com/
POPFile
http://popfile.sourceforge.net/
続きを読む "spam 対策ツール "POPFile"" »
■Excelのファイルを作成する(Spreadsheet::WriteExcel)
http://www.hippo2000.info/perl/excelWrite.htm
■Spreadsheet::WriteExcel version 0.33(日本語訳)
http://member.nifty.ne.jp/hippo2000/perltips/Spreadsheet/WriteExcel.htm
■Spreadsheet-WriteExcel-0.42(CPAN)
http://search.cpan.org/~jmcnamara/Spreadsheet-WriteExcel-0.42/WriteExcel.pm
続きを読む "Perl で Excel ファイル作成" »
blog.keitap.com: MGS3
そんな事はどうでも良くて、このファミ通のサイトなんですが、Vignetteで出来ています。正確には、VignetteをカスタマイズしたCMSなんですが、韓国の企業製です。名前は、NORENだったっかな。
結局のところ Vignette とは全く関係が無く、韓国の I-ON COMMUNICATIONS が開発した製品 I-ON Content Server の日本版(日本語版じゃない?)が NOREN(正式名称 = NOREN Enterprise Content Server)なのですね。日本ではアシストが販売してるんだぁ。
続きを読む "Python ベースのコンテンツ・マネジメント・システム NOREN(のれん)" »
sixamo - 人工無脳エンジンししゃも
人工無脳エンジンししゃも
Roblog::読兎の兎でも驚いてましたが、また別なロボ発見。
Ruby ベースで形態素解析エンジンなどは使わず、スクリプト単体で動作してドンドン賢くなっていくとか。tDiary との連携が取れ、さらにはもっと壮大な計画も明確にある様子。
ししゃもの特徴
- Rubyで書かれている。
- Ruby だけで動く。データベースや形態素解析エンジンを必要としないので、導入がお手軽。
- 会話文を聞いて学習する。会話文でなくても大丈夫かも。
続きを読む "人工無能エンジンししゃも(sixamo)" »
急に思いついてケータイで取った写真の EXIF データから位置情報を取り出してみようと思ったのですが...
Image::Info モジュールをゲットし、ごにょごにょしてテストスクリプトを実行してみるとちゃんと表示された。
BitsPerSample -> [8,8,8]
ColorComponents -> [[Y,33,0],[Cb,17,1],[Cr,17,1]]
ColorComponentsDecoded -> [HASH(0x81acbe0),HASH(0x81acc10),HASH(0x81a9a64)]
ColorSpace -> 1
ComponentsConfiguration -> YCbCr
DateTimeDigitized -> 2004:04:04 00:55:00
DateTimeOriginal -> 2004:04:04 00:55:00
ExifImageLength -> 480
ExifImageWidth -> 640
ExifVersion -> 0210
FlashPixVersion -> 0100
InteroperabilityIndex -> R98
InteroperabilityVersion -> 0100
JPEG_Type -> Baseline
Make -> DoCoMo
Model -> P900i
SamplesPerPixel -> 3
YCbCrPositioning -> 2
color_type -> YCbCr
file_ext -> jpg
file_media_type -> image/jpeg
height -> 480
resolution -> 72 dpi
width -> 640
ここで気づいた。地理データって、一体どこ?
おかしいなと思って GPS 対応の INFOBAR で GPS データを付加してもらった写真で試すと
続きを読む "P900i ≠ GPS ケータイ" »
miyagawa さんの「blog.bulknews.net: MT コメントSPAM Blacklist ファイル更新」と NDO::Weblog の naoya さんの「NDO::Weblog: Hacking the Hack: MT コメントSPAM Blacklist ファイル更新」を参考にスパム対抗準備してたのですが、自分以外の人間も同じ MT を使っているのに告知するのを忘れていたために、意味の分からない人が間違ってコメント削除し blacklist 登録をしてしまう事件が発生してしまいました。
こんなところに力を使ってもと思いましたが、メッセージも英語のままだと分かりにくいのかしらと思い L10N 機能を利用してメッセージのローカライズをしてみました。
続きを読む "MT コメントスパム対策の国際化" »
SSL 設定を追加するに当たって、Debian(Sarge)のファイル構成を調べて理解を深めていったら、段々その合理的な構成がわかってきた。
/etc/apache2/
sites-available/ 利用可能な仮想ホスト設定ファイルのあるフォルダ
sites-enabled/ 利用する設定のシンボリックリンクが置かれるフォルダ
mods-available/ 利用可能な追加モジュール設定ファイルのあるフォルダ
mods-enabled/ 利用する設定のシンボリックリンクが置かれるフォルダ
mods-available にはインストール済みのモジュール用の設定ファイルが置かれているが、a2enmod/a2dismod を使って使用/不使用が簡単に行える。
また sites-available に自前で VirtualHost 設定を入れておくと a2ensite XXX や a2dissite XXX のようにして設定を追加/削除できる。
たとえば ssl 関係の設定をするには /etc/apache2/sites-available/ssl を準備するだけ。これも /usr/share/doc/apache2/examples/ssl.conf.gz をコピーして一部を書き換えれば終了。SSL の場合は証明書が必要なので、予め apache2-ssl-certificate を実行しておく。
その後、
a2ensite ssl
としてサイト設定の追加、そして
a2enmod ssl
で設定終了。
この方法では Apache2 がマイナーアップグレードが行われて再インストールを行っても、sites-available/ 以下の追加ファイルはそのまま残ることになり、とても安心してソフトウェアの更新が行える。とてもありがたい。
ほかにもありがたい設定はあるんだろうけど、そもそもこうしたことを理解するのにいまいちどう調査したらよいかがわかりにくいのが Debian のキツイところだろうか。
続きを読む "Debian の Apache2 で SSL セットアップ" »
コメントスパムは 1バイトコメントを ban する対策を講じたところで安心していたのですが、この数日で突然トラックバックスパムの嵐にやられました。
なんだか腹たってきたのでコメントスパムと同様 1バイト文字のみで構成されるトラックバックは ban。(差別っぽいけど)ついでにブラックリストに含まれる場合も ban ということで修正してみた。
続きを読む "トラックバックスパム対策(MT向け)" »
PostgreSQL Tsearch2日本語化パッチによる日本語全文検索システム
このページでは、PostgreSQLの全文検索モジュール“Tsearch2”と、形態素解析による分かち書きを行う関数“pgkakasiw()”を使って、日本語全文検索システムを構築する方法についてご紹介します。
pgkakasiw() は PostgreSQL に日本語全文検索機能を追加する関数です。正確には PostgreSQL 向け全文検索機能を提供するモジュール Tsearch2 で KAKASI によるわかち書き機能を利用することで日本語の全文検索を可能にするものです。
さて意気揚々と pgkakasiw を導入してみたのですが...
続きを読む "PostgreSQL 全文検索機能導入...失敗" »
いつもすっかり忘れて調べなおしているのでメモメモ。
Debian Linux パッケージ導入のため、意図的にではなく単に最適なサーバーを選ぶのを自動化してくれるのが netselect パッケージに含まれる netselect-apt スクリプト。
testing とかをコマンドラインで指定すれば testing 向けの設定になるとか。今は sarge にしたてなのでしばらく stable でいいかしら。
APT HOWTO - 基本的な設定
2.3 sources.list ファイルに記述すべき最適なミラーサイトの決定: netselect, netselect-apt
(中略)
バージョン 0.3 から、netselect パッケージには netselect-apt というスクリプトが含まれるようになりました。これは上記の プロセスを自動的に行なってくれるものです。ディストリビューションの 種類 (デフォルトは stable) をパラメータとして実行するだけで、最適な main と non-US のミラーが記述された sources.list が生成され、 今いるディレクトリ内に配置されます。以下は、stable ディストリ ビューション用の sources.list を生成する例です。
bash$ ls sources.list
ls: sources.list: File or directory not found
bash$ netselect-apt stable
(...)
bash$ ls -l sources.list
sources.list
bash$
注記: sources.list ファイルは、コマンドを 実行したディレクトリ内に生成されます。その後、/etc/apt/ ディレクトリに移動しなければなりません。
以下、実行例。
続きを読む "自動的に sources.lst を設定するスクリプト netselect-apt" »
/etc/aliases へ他のファイルを append するつもりが書き込んでしまいました。つまりは cat aliases > /etc/aliases。素人だな。
反省の意味をこめて aliases.db から aliases を復活させる方法をメモ。
続きを読む "aliases.db から aliases の復活" »