CALENDAR
S M T W T F S
     12
3456789
10111213141516
17181920212223
24252627282930
<< September 2017 >>
SPONSORED LINKS
ARCHIVES
CATEGORIES
RECOMMEND
RECOMMEND
MOBILE
qrcode
<< 震災列島 | main | 巨大災害の時代を生き抜く-ジェオゲノム・プロジェクト >>
スポンサーサイト

一定期間更新がないため広告を表示しています

| - | | - | - |
ハッカーと画家
ハッカーと画家 コンピュータ時代の創造者たち
ハッカーと画家 コンピュータ時代の創造者たち
Paul Graham, 川合 史朗
スパム対策に欠かせないベイズ理論とは? (1/2)
http://www.itmedia.co.jp/enterprise/articles/0502/07/news069.html

2/6に、ポール・グラハム著『ハッカーと画家』のトホホぶりをamazon.co.jpで指摘したら、途端に、ITmediaでポールグラハムを持ち上げる記事が載っていました。なんだか知りませんが、このメディアは、以前、ハイビジョン放送についてdoblogで指摘したら、すぐ意固地な反論が返ってきていて、まるで、僕の書いていることをいちいち気に病んで監視しているかのようです。

129ページの、「一方の集合にのみ現れる単語の確率はどうするかという問題もあるが、これも試行錯誤から0.01と0.99とした。」は、アメリカ人の拙速ぶりを最初の方で散々説明した後のことなので、弁解はされてはいるのですが、でも、それを天才と持ち上げちゃあまずいでしょう。

2頭の馬が過去に1度だけ対戦している時にでも、勝ったほうの馬が負けたほうの馬に勝つ確率を0.99と推定してしまう様なプログラムを作った人を天才と祭り上げて、ありがたがるなんて、本当にアメリカ人はどうかしていますね。尤度関数はどこに行ってしまったのでしょう?

ベイズ統計が必要になるのは、サンプル数が限られている場合です。サイコロで1の目がでる確率は、情報がなくても1/6だし、1億回転がした後でもほぼ1/6ですが、4回の試行で1の目ばかりが出たとすると、あくまでもデータに忠実にそのサイコロで1の目が出る確率は1/2であると推定するわけです。1しかでないからって、かならず1がでるとは限らないけれど、計算できないから決め打ちで0.99にしようとかいうのはベイズ統計ではありません。14回の試行で1ばかり出たら3/4という風に、ベイズ統計では試行によって情報が追加されるたびごとに確率が更新されて行きます。

>> MSも注目する“ベイズ”って何だ
http://www.oricom.co.jp/marketing/0112252.html

これなんかも、思い込みを数式にまぶした解説ですね。この類の説明を何度か経ると泥だらけになって、符号があってれば良いとか、DIV0のエラーがでなければよいという水準に落ちぶれていくのでしょうね。
| 反米 | 02:21 | comments(14) | trackbacks(1) |
スポンサーサイト
| - | 02:21 | - | - |
コメント
参考になります。

ただ、コンテキストを少々付加しますと、"A Plan for Spam"自体の功績は言ってしまえば「ベイズ推計(っぽいアルゴリズム)はspamフィルタリングに*実際に使える*」ということを他の人々に気づかせた、ということだと思います。今でも"A Plan for Spam"へのリファレンスがあるのはそのためで、彼のアルゴリズムがベイズ推計の忠実な実現である思っている人は(彼自身を含め)居ないと思います。実際文章中で既にいくつものチート (「誤検出を防ぐ方向にバイアスをかける」)が明示されています。

このコンテキストで重要だったのは、それがスパムフィルタリングとして動作するという結果でして、その意味ではご指摘の部分は(やってみればわかりますが)サンプル数が十分なら真面目に計算しても結果にあまり影響を与えません。トーカナイズの方法の影響の方がずっと強く出るので、工学上の興味はむしろそちらに向かいそうです。
| shiro | 2005/02/09 11:54 AM |
オンライン版に、この部分についての訳註を加えておきました:
http://www.shiro.dreamhost.com/scheme/trans/spam-j.html (訳註2)。
もしベイズ統計について私の間違いがありましたら、ご教示頂けると幸いです。
| shiro | 2005/02/10 9:34 AM |
「ハイビジョン放送についてdoblogで指摘したら、すぐ意固地な反論が返ってきていて」というくだり、詳しい話を知りたいのですが、ポインタなどご教示願えませんでしょうか。

| itex | 2005/02/11 11:25 PM |
翻訳者の人は、ポールグレアムを擁護したかった様なのですが、お勧めリンク先でも同じ間違いがあって、トホホでした。
http://www.pag1u.net/network/spam.html
このページを書いたものの、この件はそれっきり放置しています。
ハイビジョンに関する直接の反応に思えたのは2004/7/8のあたりですね。
| datura | 2005/05/18 4:35 PM |
ええと、なんかお気づきじゃないような気がするので書くんです
が、上でコメントされている shiro さんは、その翻訳者の人ご
自身ですよ… もし誤解で、既にお気づきだったらすみません。
「同じ間違いがあって、トホホ」とありますが、shiro さんの
コメントにある通り、訳註2. のところに訂正があります。
| soda | 2006/01/08 5:40 AM |
私の方も放置しててすみませんです。リファラが増えてたので再訪しました。

該当ページ:
http://www.pag1u.net/network/spam.html

ですが、ベイズ定理を使う場所に関してちょっと不明確な点があります。
ベイジアンフィルタの論文をいくつか見てみると、
(1)個々の特徴量のspam/ham確率を算出するのにベイズの定理を使う
(2)何らかの方法で求めた特徴量の確率を合成するのにベイズの定理を使う

という違いが見られます。PG方式及びそれらの改良版だけでなく、Linの論文等も
(2)の意味でベイズの名前を出しています。このエントリ、及びspam.htmlの説明
においても、松岡さんは(1)の方を問題にされているようです。

もちろん、ベイズの定理以外で求めた怪しい確率にベイズの定理を適用したって
意味がない、という立場もありだと思います。そういうことでしょうか。ベイズの
定理は確率の解釈の立場が違っても成り立つ定理ではありますが。

それと、私は原文のBayesianをそのまま「ベイジアン」と訳してしまいました。
形容詞のBayesianは「ベイズ主義の」以外にも単に「ベイズの」
「ベイズの定理を使った」という意味で使われているようです。
日本語の「ベイジアン」は「ベイズ主義者」の意味でしか使われない
ということでしたらご教示ください。あるいは英語のBayesianの用法が
既に乱れているのかもしれません。
(この項は http://www.pag1u.net/network/detarame.html のエントリを
参照しています)
| shiro | 2006/01/19 7:47 AM |
コメントスパムが3/18頃に100個くらいついていて、それを掃除していたら新しいコメントがあることに気づきました。

僕の言っていることは伝わっていると思います。さらに極端に言えば、最後のところだけベイズの定理を使ったからベイジアンと言うのは、北朝鮮で取れたアサリを日本の海に沈めて置いて、それを後で回収して日本産として売るみたいなものではないか?みたいなことです。それが一般化してしまっているのでしょうがないとか、どうせ気休めにすぎないと諦めずに、文句を言っているわけです。

確率の尤度関数の掛け算の代わりに確率の期待値の掛け算で近似するのは、足し算の代わりに掛け算をする様な物ですから、この種の乱暴な近似が、テロリストのプロファイリング用ソフトにも使われていたらどうしようとか思うわけです。

まあ、実際の世界のほうが、イランと戦争したいから日本が開発中のアザデガン油田は諦めてもらうとか、沖縄にいる米兵による凶悪犯罪を減らしたかったら立ち退き費用を一兆円だせとか、もっともっと比べ物にならないくらい乱暴なわけですが。
| datura | 2006/04/05 5:50 PM |
初めてお邪魔します。

僕もスパム関連の話題から“ベイズ統計”に興味が出たクチなんですが、それでベイズ統計を勉強し出したんですが、全然チンプンカンプンでした。
「これじゃいけないな」と言うんで、ここで取り上げられていた「ハッカーと画家」を購入して読んでみました。全体的な本としての面白さはともかく、やはり件の「A plan for spam」の部分が分からない。

P(spam)=ΠP(spam|w_i)/【ΠP(spam|w_i)+{Π1−P(spam|w_i)}】

のドコがベイズなんでしょ?う〜〜〜ん・・・・・・・。
ナイーヴベイズって手法が流行っているらしいですが、ベイズ統計学の分かりづらさ以上にこの辺りは魑魅魍魎だと感じました。
| kame | 2006/05/12 3:42 PM |
kameさんの他にスパムフィルターからベイズ統計に興味を持った人が誰だか文脈からは読み取れません。

ーー

ワイドショーでジダンの頭突き弁明会見を見て真相がはっきりしないままチャンネルを変えたら、偶然、放送大学で、大澤光という心理学の人が、ベイズ統計の授業をやっていました。中にスパムフィルターの説明もそのまま出てきて、
ある単語が出てきたメールがスパムである確率をそのまま使っていました。大学でこんなことを教えていたのなら、世間が気にも留めないのも当然ですね。

ベイズ統計で出てくる事後確率を尤度関数に置き変えたのはフィッシャーの仕事でそれを含めてベイズ統計と呼んでしまう僕のほうが誤解の元なのかもしれません。しかし、フィッシャー以後の時代に住んでいるわけですから当然という気がします。

ベータ関数とか出てきていながらやっていることは少数サンプルからをそのまま未来に外挿しているというトンでも論文もスパムフィルター関連ではあったわけで、フィッシャー未満の間違ったベイズ統計が、さまざまな分野に不当に適用されるのは防がなければなりません。
| datura | 2006/07/13 4:32 PM |
http://hawaii.aist-nara.ac.jp/~shige-o/pukiwiki/index.php?%A5%D9%A5%A4%A5%B8%A5%A2%A5%F3%A5%B9%A5%D1%A5%E0%A5%D5%A5%A3%A5%EB%A5%BF%A1%A1%A1%CA%B5%DA%A4%D3%A5%CF%A5%C3%A5%AB%A1%BC%A4%C8%B2%E8%B2%C8%A1%A4%A5%CA%A5%A4%A1%BC%A5%D6%A5%D9%A5%A4%A5%BA%A1%A6%A1%A6%A1%CB

kamoさんの「も」はこのサイトみたいです。

ベイズ統計 フィッシャー スパムフィルターでgoogle検索したら出てきた唯一のページにkamoさんが登場しました。
| datura | 2006/07/13 8:24 PM |
特に「も」に関しては意味が無かったのですが、敢えて言うと、一時期某巨大掲示板の統計関係のスレッドで「ベイズ統計って何だ?」と言う話題が盛り上がっていて、大方が「ベイズ統計」と言う単語自体を「スパムフィルター」と言った話題から知った人が多かった、と言うだけの話です。僕もご多分に漏れなかった、と。

確かに「ベイズ統計」と言うと、分かった範囲で言うと少なくとも二つの意味で使われている、と。一つはフィッシャーの最尤法に対抗してのベイズ推定、もう一つは「ナイーヴ・ベイズ」に始まるベイズ。後者の方は純粋な「統計学的理論」と言うより、恐らくトピックとしては工学上の問題であって、多分に恣意的な操作がかなり入っている技術的な話のような感じです。これを統計学と呼んでいいものか・・・・・・。いや、いいのかもしれませんが。とにかくこの二つは同じ意味ではないと言う事です。大変気持ち悪いです。
後者の場合は、単に実用的にはどうなんだ?って類の全く新しい技術の提案なんでしょう。と言うより凹んじゃう可能性もあるかもしれません。例えば、検索エンジンでの自動翻訳機能等への技術転用まで達するかどうか・・・・・・!?上手く行けば素晴らしいんでしょうけど、そうでなければどうなのか。そもそも確率的に翻訳なんて出来るのか?単に画餅じゃないのか?結局「コレじゃダメだあ」なんて結論に終わるのかもしれません。
取りあえずYahoo!の翻訳はトンマなんで、これ以上の結果が見れる日が来るのかどうか注目しています。
| kame | 2006/07/26 9:51 AM |
冷静でない人間の言うことは、だれも耳を貸しませんよ><
| | 2008/10/18 8:59 PM |
コメント場所を間違えるような人で、冷静でないことにコンプレックスを抱いていて、どうせ反応がないだろうと思って2ch風の匿名1行コメントを書くのが精一杯。な人だということですか?

川越市長の問題については、同じ雑誌『財界にっぽん2008/10』でも続報が出ていました。またしても謹呈で郵便受けに入っていたわけです。
| datura | 2008/10/19 4:22 AM |
ハッカー様!助けてください!!

あの、まず、「中学生チャット4」と検索をしていただいたら、

中学生チャット4Chatrnfo-中学生・高校生のチャットコミュニティ

中学生チャット4掲示板

中学生チャット4

と上から順番にクリックするところがでてきます。
で、2番目の「中学生チャット4掲示板」をクリックして、「中国地方」のところをクリックして「ヒガィモの人(★U∀0pq)」をクリックして、出てきたサイトの7ページ目「yui」と「ゆーゆ」のところの削除をお願いします!!
出来ることならば、「中国地方」すべて削除してほしいです!!
できるだけ速目がいいです!!!
本当におねがいします!!!
かってながらすにません!
本当にごめんなさい!!
助けてください!!
よろしくお願いします!!

理由:軽い気持ちでひどいことを書いてしまいました。
みる人が多くならないうちにどうかサイトの削除をお願いします!!!
| こ | 2009/02/08 3:49 PM |
コメントする









この記事のトラックバックURL
http://pag1.jugem.cc/trackback/11
トラックバック
「ハッカーと画家」
著者の Paul Graham は、インターネット黎明期に ViaWeb というベンチャー企業を作り、その頃には殆ど存在しなかった Web ベースのアプリケーションを作った。その会社は Yahoo! に買収され、彼の作ったアプリケーションは...
| 諸悪の根源は物理的 | 2006/01/13 4:55 PM |