踊る人形

同じアプローチで登録者数に近づこうとする方はいらっしゃるご様子で、どうやって「の」指数を思いつかれのたか興味はあります。2番煎じながら、私も検索してみました。


のいて、でしたに。
なっはとが、かまするもんをら。
うり、これくだき。
あけよ、さどそ。


こう覚えましょう。なんかどこかの方言みたいな感じがします。微妙に怒って見せてますが、これは駆け引き、売り物を最後にはもらい受けてしまいます。これが、やふBlogで使用頻度が多い文字を並べたものです。


検索していくうちに、一般的な文字頻度表とは異なることに気がつきました。文字は同程度に使われるのではなく、使用されやすいのとあまり使われないのとがあります。この違いを利用して、単純な暗号文は簡単に解読されてしまいます(踊る人形)。

複数のソースが無かったのですが、日本語は「い」が一番使いやすいようです。やふBlogでは「の」です。すべての平仮名一文字の検索結果をグラフにしてみました。ついでに「はてな過去質問」や「Doblog」、「livedoorBlog」からも検索しましたので、合わせてご覧下さい。 あいうえお順頻度分布数値データ です。

はてな過去質問」での最頻値は「い」でしたが、「の」も2位と健闘しています。やふBlogとはてな過去質問とは全般的に似通っていることが判ります。そして上位から並べた場合、過去の文字頻度分布と下位ではほぼ似通ってますが、上位では異なり、ドングリの背比べでなだらかに変化していきます。特異的なのがDoblogやlivedoorBlogです。全然傾向が異なります。ユーザー層の違い等の周辺情報と一緒に評価すれば、ネット言葉を調べる上で重要な鍵になるかもしれません。

また、過去の文字頻度との乖離率を見てみますと、やふBlogの人は 「ぁぅぇ」 など小さい文字が好きようです。感嘆詞を多用されるのでしょうか。はてな過去質問では「えまど」です。Doblogでは「ねぬず」です。ライブドアも「ねぬず」です。


何かしらの特性を反映しているのかと思いますが、ユーザー情報を知るすべのない身では検討の仕様がありません。言語学とか社会学とかの卒論の題材にいかがでしょう。いつか誰かが取上げていただける日がくるのかも・・・。


でも一番吃驚したのは・・・はてな過去質問検索の「」です。宣伝効果抜群?、まぁ、少なくとも写真に罪はありません。
>【PR】あびる優「DASHOVER」 - HMV
>あびる優サイパンで撮影されたイメージDVD「DASHOVER」をオンラインで販売。作品の解説、投稿レビューなどを参照できる。



はてなダイアリでも検索してみたいのですが、全個別記事に対して総ダイアリ数を表示する機能はないので不可能です。擬似的には、googleとかでドメイン指定検索を行えばよいのかもしれませんが、取りこぼしが多かったりと正確ではないと思います。


http://www.hatena.ne.jp/1109412386