Cari Blog Ini

Sabtu, 05 November 2011

BLAST NCBI pada Windows Azure

Apa sih NCBI itu??

NCBI (National Centre for Biotechnology Information) merupakan suatu yang dibuat oleh institusi yang digunakan sebagai sumber informasi perkembangan biologi molekuler. NCBI membuat database yang dapat diakses oleh publik, merangsang riset biologi terkomputasi, mengembangkan software penganalisis data genome, dan menyebarkan informasi biomedical yang kesemuanya diharapkan mengarah pada pemahaman yang lebih baik tentang proses-proses molekuler yang mempengaruhi manusia dan kesehatannya. dan NCBImempunyai tujuan membuat lebih banyak data bioinformatika diakses para peneliti seluruh dunia

Dibangun pada Windows Azure, BLAST NCBI pada Windows Azure memungkinkan peneliti untuk mengambil keuntungan dari skalabilitas dari platform Windows Azure untuk melakukan analisis proteomik luas dan data genom di awan.

BLAST pada Windows Azure adalah implementasi berbasis cloud dari Alat Alignment Dasar Pencarian Lokal (BLAST) dari National Center for Biotechnology Information (NCBI). BLAST adalah suite program yang dirancang untuk mencari semua database urutan tersedia untuk kesamaan antara permintaan protein atau DNA dan urutan yang dikenal. BLAST memungkinkan cepat pencocokan urutan hubungan dekat dan jauh, memberikan nilai yang memungkinkan pengguna untuk membedakan pertandingan nyata dari hit latar belakang dengan tingkat akurasi yang tinggi statistik. Para ilmuwan sering menggunakan pencarian tersebut untuk mendapatkan informasi tentang fungsi dan pentingnya biologis dari produk gen.

BLAST pada Windows Azure memperluas kekuatan suite program BLAST dengan memungkinkan peneliti untuk menyewa waktu pemrosesan pada platform Windows Azure awan. Ketersediaan program ini selama awan itu memungkinkan laboratorium, atau bahkan individu, untuk memiliki skala besar sumber daya komputasi yang mereka miliki dengan biaya yang sangat rendah per dijalankan. Bagi peneliti yang tidak memiliki akses ke sumber daya komputer yang besar, ini sangat meningkatkan pilihan untuk menganalisis data mereka. Mereka sekarang dapat melakukan analisis yang lebih kompleks atau mencoba pendekatan yang berbeda yang hanya tidak layak sebelumnya.
BLAST pada Windows Azure dalam Aksi

Salah satu tantangan utama bagi laboratorium bioinformatika banyak telah mendapatkan dan memelihara infrastruktur komputasi yang sangat mahal yang diperlukan untuk analisis proteomik besar dan data genomik. BLAST NCBI pada Windows Azure alamat yang perlu.
Rumah Sakit Anak Seattle: Pemecahan Masalah Enam Tahun dalam Satu Minggu

Di Rumah Sakit Anak Seattle, peneliti tertarik dalam interaksi protein ingin tahu lebih banyak tentang hubungan timbal balik urutan protein yang dikenal. Karena banyaknya protein yang dikenal-hampir 10 juta-ini akan menjadi masalah yang sangat sulit bagi bahkan yang paling state-of-seni komputer untuk memecahkan. Ketika para peneliti pertama mendekati Microsoft Ekstrem Computing Group (XCG) untuk melihat apakah BLAST NCBI pada Windows Azure bisa membantu memecahkan masalah ini, perkiraan awal menunjukkan bahwa itu akan mengambil satu komputer lebih dari enam tahun untuk menemukan hasil. Tapi dengan memanfaatkan kekuatan awan, mereka bisa memotong waktu komputasi secara substansial.

BLAST pada Windows Azure memungkinkan para peneliti untuk membagi jutaan urutan protein ke dalam kelompok dan mendistribusikannya ke pusat data di beberapa negara (mencakup dua benua) untuk analisis. Dengan menggunakan awan, para peneliti memperoleh hasil dalam waktu sekitar satu minggu. Ini telah menjadi proyek penelitian terbesar sampai saat ini berjalan pada Windows Azure.

Pengisian bahan bakar Hidrogen Penelitian

Rhodopseudomonas palustrisRhodopseudomonas palustrisScientists di University of Washington Harwood Lab bekerja pada sebuah proyek untuk mengidentifikasi driver utama untuk memproduksi hidrogen, bahan bakar alternatif yang menjanjikan. Metode mereka mengadopsi ciri populasi strain dari bakteri Rhodopseudomonas palustris dan menggunakan pendekatan genomik integratif untuk membedah jaringan molekul produksi hidrogen.

Proses ini terdiri dari serangkaian langkah-langkah menggunakan BLAST untuk query 16 strain untuk memilah-milah hubungan genetik di antara mereka, mencari homolognya dan orthologs.

Setiap langkah bisa sangat perhitungan intensif. Masing-masing dari 16 strain, misalnya, adalah komputasi diperkirakan memiliki sekitar 5.000 protein. Sebuah menjalankan BLAST dapat membutuhkan tiga jam atau lebih untuk menganalisis regangan masing-masing. Ketika sumber daya lokal Harwood Lab tidak mampu menangani perhitungan, para peneliti mengajukan permohonan mereka untuk sebuah cluster komputer nasional, namun permintaan itu ditolak setelah dua hari karena waktu pekerjaan-antrian panjang.

Para peneliti kemudian menghubungi tim XCG untuk melihat apakah BLAST pada Windows Azure bisa membantu mereka dengan masalah ini sebelum mereka tenggat waktu-dan hal itu. BLAST pada Windows Azure secara signifikan menghemat waktu komputasi:

     Waktu untuk BLAST pada Windows Azure untuk memproses 5.000 urutan satu strain berkurang dari tiga jam menjadi kurang dari 30 menit.
     Seluruh analisis, dikoordinasikan oleh Sega dan tim XCG, selesai dalam tiga hari.

Sifat on-demand dari BLAST pada Windows Azure benar-benar menghilangkan waktu lowongan pekerjaan-antrian, yang kadang-kadang bahkan lebih lama dari waktu perhitungan ketika berjalan pada performa tinggi sumber daya komputasi publik bahwa peneliti sering bergantung pada.

Pelaksana pada Windows Azure BLAST

Pelaksanaan BLAST NCBI pada Windows Azure terdiri dari dua tahap yang berbeda. Tahap pertama adalah tahap persiapan, di mana lingkungan untuk dieksekusi BLAST adalah dipentaskan dan dikirim ke masing-masing "pekerja" awan-atau menghitung node. Pada tahap kedua, berjalan BLAST sebenarnya dilakukan dalam menanggapi masukan dari pengguna.

Dua item penting perlu dibuat tersedia untuk setiap pekerja awan yang akan menjalankan sebagian dari pekerjaan BLAST. Yang pertama adalah aplikasi BLAST. BLAST pada Windows Azure menggunakan versi terbaru dari executable + BLAST (BlastP, BlastN, dan BlastX) yang disediakan oleh NCBI. Aplikasi ini dapat digunakan tanpa modifikasi apapun. Selain itu, pengguna perlu memiliki akses ke satu atau lebih database terhadap aplikasi BLAST yang akan mencari hasilnya. Ini tersedia dari beberapa sumber di web, termasuk NCBI.

BLAST executable yang dibundel sebagai sumber daya di dalam paket layanan awan. Setelah pengguna menyebarkan paket pada account mereka Windows Azure, executable BLAST + mendapatkan digunakan pada setiap pekerja untuk eksekusi lokal. Database NCBI (seperti nr, alu, dan human_genome) di-download dari situs FTP NCBI untuk penyimpanan Blob Azure dengan menggunakan basis data tugas download yang dijalankan oleh setiap pekerja yang tersedia.

Peran web menyediakan pengguna dengan sebuah antarmuka di mana mereka dapat memulai, memonitor, dan mengelola pekerjaan BLAST mereka. Pengguna dapat memasukkan lokasi dari file masukan pada mesin lokal mereka untuk meng-upload, menentukan jumlah partisi di mana mereka ingin memecah pekerjaan mereka, dan menentukan BLAST-parameter khusus untuk pekerjaan mereka.

Setelah pengguna menyerahkan pekerjaan melalui antarmuka web peran, entri membagi tugas baru akan dibuat dalam Tabel Azure. Semua pekerja yang tersedia mencari untuk tugas-tugas dalam tabel ini. Pekerja tersedia pertama mengambil tugas dan membagi urutan file input ke dalam jumlah partisi yang ditentukan oleh pengguna. Untuk setiap segmen dari file input, tugas baru dibuat dalam tabel tugas dan pekerja yang tersedia berikutnya mengambil tugas ini dari meja tugas.

Setelah semua tugas dalam antrian telah selesai, pekerja mengambil output dari tugas masing-masing dan gabungan mereka ke dalam sebuah file tunggal. File yang ditempatkan dalam sebuah gumpalan di Windows Azure penyimpanan dan URL ke data hasil dicatat dalam sejarah pekerjaan bagi pengguna. Output ini kemudian dapat didownload dari antarmuka peran pengguna web.
Pelajaran

Penerapan BLAST pada Windows Azure untuk berjalan besar memberikan kita oleh University of Washington dan kelompok Rumah Sakit Anak diajarkan Windows Azure peneliti banyak pelajaran penting tentang bagaimana struktur skala besar proyek-proyek penelitian di awan. Sebagian besar dari apa yang kita pelajari adalah berlaku tidak hanya untuk kasus BLAST tetapi untuk setiap pekerjaan paralel dijalankan pada skala di awan.

Desain untuk kegagalan: Besar-data skala-set perhitungan semacam ini akan hampir selalu menghasilkan semacam kegagalan. Dalam jangka panjang minggu-proyek Rumah Sakit Anak, kita melihat sejumlah kegagalan: kegagalan mesin individu dan pusat seluruh data diturunkan untuk update reguler. Dalam setiap kasus ini, Windows Azure kerangka memberikan kita dengan pesan tentang kegagalan dan memiliki mekanisme di tempat untuk membuat pekerjaan memastikan tidak hilang.

Struktur untuk kecepatan: Penataan tugas individu secara optimal dapat secara signifikan mengurangi waktu berjalan total perhitungan. Peneliti melakukan beberapa tes berjalan sebelum memulai berjalan dari seluruh dataset dalam rangka untuk memastikan bahwa data masukan itu dipartisi sedemikian rupa untuk mendapatkan penggunaan maksimal dari setiap node pekerja. Sebagai contoh, Windows Azure mengharapkan tugas individu untuk menyelesaikan dalam waktu kurang dari dua jam. Jika pekerjaan membutuhkan waktu lebih dari dua jam, Windows Azure mengasumsikan bahwa pekerjaan gagal dan memulai pekerjaan baru melakukan pekerjaan yang sama. Jika pekerjaan terlalu pendek, Anda tidak mendapatkan semua keuntungan dari menjalankan pekerjaan secara paralel.

Skala untuk penghematan biaya: Jika berjalan lama beberapa pekerjaan pengolahan bersama banyak pekerjaan lebih pendek, penting untuk tidak memiliki node pekerja menganggur terus berjalan sampai biaya sekali bagian mereka dari pekerjaan dilakukan. Para peneliti belajar untuk mendeteksi komputer sedang idle dan menutup mereka turun untuk menghindari biaya yang tidak perlu.

Tidak ada komentar:

Posting Komentar