UC Davis Bioinformatics Training Program: 3日目
この記事はUC Davis Bioinformatics Training Programに参加してきたの3日目の参加記になります。
6/18(水)6時起床。UW-MadisonのEメールサーバが応答なし。どうやらマディソンを襲った雷雨(1、2、3、4)によってキャンパス中のITが死んでいるらしい。メインページであるwisc.eduさえアクセスできない。バックアップデータセンターとかはないのかな? 8:30発。8:45着。
本日の講義資料はこちらからダウンロードできる。
- 本日はasssemblyについて
- Celera assembly(オープソース版はwgs-assembler)、Velvet、ALLPATHS-LG、SGAの紹介
- Velvetのようなde Bruijn Graph assemblerではbase coverageよりk-mer coverageが大事
- ではkをどう選ぶ?
- k-mer error correction toolsとしてQuake、Digital normalizationの紹介
- さらにはPacBio read correctionにも言及。ここでも質問がたくさん出てPacBioの注目度が伺える
- SGAはde Bruijn Graph assemblerに比べてメモリ使用量が少ないがより遅い
- assemblyの評価方法。N50、NG50、cumulative length plots、feature response curveなど
- 昼飯はSegundo Dining Commonsへ案内される。ブッフェ形式のようだ? たらふく食べる
- ここで参加者であるシカゴ大学に関連する企業所属のコンピュータ科学者ともう一人のサウジアラビアの大学で働く微生物学者と知り合う。サウジアラビアからは何と参加者2人
- 前者のコンピュータ科学者はGlobus Genomics所属。シカゴ大学発のベンチャー企業なのかな?
- 実習ではE. coliのデータでまずFastQ interlacerを実行してフォワードとリバースreadsのファイルを結合。そしてVelvetを実行
- みなで頑張って最適なkの探索
- coverage cutoffとexpected coverage値の決め方
- 最後はThe Assemblathonの中心人物であるKeith Bradnam氏によるゲスト講義。ベストで普遍的なアセンブラーは存在しない。データごとに最適なアセンブラーがある。パラメータを少し変更するだけで結果は変わる。 -> ゲノミック選抜と全ゲノム情報を用いた表現型値の予測の世界と同じですね
- PDFスライドはこちらから入手可能
- 帰途、友人とDavis Farmers Marketへ立ち寄る。
- 果物を少々とDavis Farmers Marketのトートバッグをお土産として購入
- 夕方6時頃にUW-MadisonのEメールサーバがようやく復活する