バイオインフォマティクス分野でこれから注目すべき５つのアイディア

アイディアが提出されてから現場で使われるまでに時間がかかるのだなと思う。

False Discovery Rate
- これはマイクロアレイを使う研究者の間で常識になってきた。偽陽性割合の期待値。
- FDRをコントロールしてsignificant genesを選択する方法が数多く提案されている。
- FDRをコントロールするサンプルサイズ設計も提案されている。
Empirical Null
- Theoretical Null, Permutation Nullでもない、経験分布のピーク周辺にフィッティングすることで得られる帰無分布。
- http://stat.stanford.edu/~brad/talks/ThousandsHandout.pdf
罰則付き回帰(penalized regression)
- Lassoなど．パラメータ選択
- The Lasso Page
- http://www-stat.stanford.edu/~tibs/lasso.html
階層ベイズ
- 事前知識を利用した解析手法が俟たれていると思う。
- 事前知識の表現方法を考えて解析方法をカスタマイズすることがこれからの統計家の仕事になるのかな。
圧縮接尾辞配列 (Compressed Suffix Array)
- 非常に高速かつ省メモリで文字列をマッチングするためのデータ構造＋インデックス構築、検索アルゴリズム。
- HelicosとかSolexaとか454/RocheのGS20のようなハイスループットなゲノム解析に必須だと思うがあまり普及していないようだ。
- 大規模全文検索システムSedue
- http://preferred.jp/sedue/

ほぼ1年ぶりのエントリー。
実は今、大学院生になっているのだ。