バイオインフォマティクス分野でこれから注目すべき5つのアイディア
アイディアが提出されてから現場で使われるまでに時間がかかるのだなと思う。
- False Discovery Rate
- Empirical Null
- Theoretical Null, Permutation Nullでもない、経験分布のピーク周辺にフィッティングすることで得られる帰無分布。
- http://stat.stanford.edu/~brad/talks/ThousandsHandout.pdf
- 罰則付き回帰(penalized regression)
- Lassoなど.パラメータ選択
- The Lasso Page
- http://www-stat.stanford.edu/~tibs/lasso.html
- 階層ベイズ
- 事前知識を利用した解析手法が俟たれていると思う。
- 事前知識の表現方法を考えて解析方法をカスタマイズすることがこれからの統計家の仕事になるのかな。
- 圧縮接尾辞配列 (Compressed Suffix Array)
- 非常に高速かつ省メモリで文字列をマッチングするためのデータ構造+インデックス構築、検索アルゴリズム。
- HelicosとかSolexaとか454/RocheのGS20のようなハイスループットなゲノム解析に必須だと思うがあまり普及していないようだ。
- 大規模全文検索システムSedue
- http://preferred.jp/sedue/
ほぼ1年ぶりのエントリー。
実は今、大学院生になっているのだ。