メイン

research アーカイブ

2003年03月20日

全文検索やっとくか

これ、すばらしい。
以前から体験して見たかった研究対象である日本語全文検索が簡単に手に入るぞな。
# Namazu とかあったけど再利用性に難有り

久しぶりにドキドキしちゃいました...

2ちゃんねるが盛り上がるメカニズムの解明

2ちゃんねるが盛り上がるメカニズムの解明
5 考察
これは,2ちゃんねるが盛り上がる絶妙なバランスがN とABON に よって保たれていることを意味している.

そーなのかー...

2003年04月03日

KeyGraph

KeyGraph と き~ぐらふ
- 英語版と日本語版 -

日本語解析の一手法。
2ちゃん研究もしている様子。

2003年12月16日

ユースケースポイント

ちょっと前に仕事をした某社が見積りに使用していた算出方法がユースケースポイントだった。気になったので調べてみたら、ファンクションポイントと比較して説明している記事があった。

@IT:The Rational Edge Dr.ユースケースの “ユースケース人生相談”

(1)Actorをシンプル(1ポイント)、平均(2ポイント)、複雑(3ポイント)に分類する
シンプル:プログラマブルAPIを持つマシン
平均:コマンドラインインターフェイスと人間もしくは何らかのプロトコル経由のマシン(APIの用意なし)
複雑:GUIと人間

(2)ユースケースをシンプル(5ポイント)、平均(10ポイント)、複雑(15ポイント)に分類する
シンプル:ユースケースの重要なシナリオもしくは実行パスが4つ未満
平均:重要なシナリオが4つ以上8つ未満
複雑:重要なシナリオが8つ以上

こうした見積り方法は物理的な実装規模から算出するのではなく、実際に使用する/されるユースケースから算出できるので、安全かつ健全なのかも知れない。(もちろんどれだけのユースケースがあるかなどの算出は重要な鍵になってくるけど)

続きを読む "ユースケースポイント" »

2003年12月17日

BOM(バイトオーダーマーク)

Unicode 関連の文字エンコード方法ではビット列の並びに 2種類存在してそれを許している。そのためその印をファイルの先頭に入れるのだが、それがバイトオーダーマーク(BOM)。

ASCII 文字しかない(はず)のに、Netscape 4.x が読み込んでくれない症状。これは間違って UTF-8 エンコードした際に BOM が入ってしまったために発生した障害だった。

通常 UTF-8 では使用しない方が良いということだけど、仕様では許されているために対応しているエディタや処理系は多いみたい。


聞いたことはあるが体験しないと分からない、そんな事件でした。

参考:
Windows 98/2000上でのUTF-8のページの作り方
IT 用語辞典 : BOM 【Byte Order Mark】

2008年05月08日

ウェブページのエンコーディング、ついにUTF-8がトップ (Google インデックスベース)

Official Google Blog によれば、昨年12月の時点でウェブページ全体のエンコーディングで UTF-8 が ASCII を抜いて1位になったとのこと。laten1(ISO-8859-1) もほぼ同時期に抜いているようで今の勢いからすれば、近い将来全世界的に見ても UTF-8 がスタンダードと言ってもおかしくない世界になるのでしょうか。そうならいわゆるグローバルサイトのエンコーディングは文句無しで UTF-8 と言えますね。

■Google Official Blog: Moving to Unicode 5.1

About research

ブログ「klog」のカテゴリ「research」に投稿されたすべてのエントリーのアーカイブのページです。過去のものから新しいものへ順番に並んでいます。

前のカテゴリはproductです。

次のカテゴリはresourceです。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Ads