UC Davis Bioinformatics Training Program: 2日目
この記事はUC Davis Bioinformatics Training Programに参加してきたの2日目の参加記になります。
6/17(火)6時起床。8:30発。8:45着。デイビスの人口はマディソンの半分だけどとても住みやすそうな街。キャンパス内の自転車置き場を横切る。天気は快晴。
本日の講義資料はこちらからダウンロードできる。
- 今日はalignmentについて
- まずはalignmentとassemblyとの違い
- FM-Indexとは何か?
- paired-end readsとmate-paired readsの違い
- SAMファイルの読み方について
- VCFファイルの読み方について
- trimmingとclippingの違い
- AWS Galaxyでは2GB以上のデータをウェブ経由でアップロードは厳しい。この場合はFTP経由で
- コンピュータ実習ではPhiXデータを用いてBWAでマッピングしてSAMファイルを生成。続いてBAMに変換してIGVで視覚化
- 午後は獣医学部所属の分子生物学者であるDanika Bannasch教授によるゲスト講演で始まる。馬の疾病形質に全ゲノムシーケンシングを応用した研究例。このworkshopを開講しているBioinformatics Coreとの共同研究だそうだ
- 午後のテーマはvariant discovery
- large scale indelsのコール向けソフトウェアはbreakdancer、dellyなど
- 逆にsmall scale indelsやSNP向けのソフトウェアはSAMtools、FreeBayes、 GATKなど
- GATK3がすでに発表されているけど、まだGalaxyには組み込まれていないそうだ
- 実習では昨日習ったステップに加えて、マッピング + GATKによるvariant discoveryまで
- このpdfフローチャートをすべてなぞる
- BAMを生成してからvariant discoveryまでの道のりが長い
- さらに上記で得られた結果に対してsnpEffによりeffect predictionを行う。UCSC Genome Browserにて可視化