全文検索やっとくか
これ、すばらしい。
以前から体験して見たかった研究対象である日本語全文検索が簡単に手に入るぞな。
# Namazu とかあったけど再利用性に難有り
久しぶりにドキドキしちゃいました...
これ、すばらしい。
以前から体験して見たかった研究対象である日本語全文検索が簡単に手に入るぞな。
# Namazu とかあったけど再利用性に難有り
久しぶりにドキドキしちゃいました...
2ちゃんねるが盛り上がるメカニズムの解明
5 考察これは,2ちゃんねるが盛り上がる絶妙なバランスがN とABON に よって保たれていることを意味している.
そーなのかー...
KeyGraph と き~ぐらふ
- 英語版と日本語版 -
日本語解析の一手法。
2ちゃん研究もしている様子。
ちょっと前に仕事をした某社が見積りに使用していた算出方法がユースケースポイントだった。気になったので調べてみたら、ファンクションポイントと比較して説明している記事があった。
@IT:The Rational Edge Dr.ユースケースの “ユースケース人生相談”
(1)Actorをシンプル(1ポイント)、平均(2ポイント)、複雑(3ポイント)に分類する
シンプル:プログラマブルAPIを持つマシン
平均:コマンドラインインターフェイスと人間もしくは何らかのプロトコル経由のマシン(APIの用意なし)
複雑:GUIと人間(2)ユースケースをシンプル(5ポイント)、平均(10ポイント)、複雑(15ポイント)に分類する
シンプル:ユースケースの重要なシナリオもしくは実行パスが4つ未満
平均:重要なシナリオが4つ以上8つ未満
複雑:重要なシナリオが8つ以上
こうした見積り方法は物理的な実装規模から算出するのではなく、実際に使用する/されるユースケースから算出できるので、安全かつ健全なのかも知れない。(もちろんどれだけのユースケースがあるかなどの算出は重要な鍵になってくるけど)
Unicode 関連の文字エンコード方法ではビット列の並びに 2種類存在してそれを許している。そのためその印をファイルの先頭に入れるのだが、それがバイトオーダーマーク(BOM)。
ASCII 文字しかない(はず)のに、Netscape 4.x が読み込んでくれない症状。これは間違って UTF-8 エンコードした際に BOM が入ってしまったために発生した障害だった。
通常 UTF-8 では使用しない方が良いということだけど、仕様では許されているために対応しているエディタや処理系は多いみたい。
聞いたことはあるが体験しないと分からない、そんな事件でした。
参考:
■ Windows 98/2000上でのUTF-8のページの作り方
■ IT 用語辞典 : BOM 【Byte Order Mark】
Official Google Blog によれば、昨年12月の時点でウェブページ全体のエンコーディングで UTF-8 が ASCII を抜いて1位になったとのこと。laten1(ISO-8859-1) もほぼ同時期に抜いているようで今の勢いからすれば、近い将来全世界的に見ても UTF-8 がスタンダードと言ってもおかしくない世界になるのでしょうか。そうならいわゆるグローバルサイトのエンコーディングは文句無しで UTF-8 と言えますね。