GENOMICS
1.
Pendahuluan
Genomics
adalah bidang yang mempelajari genome, untuk memahami bagaimana suatu organisme
bekerja, dan apa akibat dari interaksi antar gen serta pengaruh lingkungan
terhadapnya. Sedangkan genome adalah materi genetik yang menjadi cetak biru
atau rancangan dari suatu mahluk hidup. Informasi ini diwariskan secara turun
temurun dan tersimpan dalam DNA, atau pada beberapa jenis virus, dalam RNA.
Ukuran
genome dinyatakan dalam bp atau base pair, yaitu jumlah pasangan nukleotida
dalam DNA.
Manusia
memiliki sekitar 3 miliar bp dalam genome-nya. Sebetulnya manusia genome
manusia 99.9% mirip. Namun perbedaan yang hanya 0.1% tersebut telah
menghasilkan keragaman yang sangat besar pada penampilan maupun kondisi fisik
seseorang.
2.
Pembahasan
Saat
ini genomics memiliki peran yang besar dalam berbagai bidang, mulai dari
kesehatan, pertanian, lingkungan, industri maupun perkembangan ilmu
pengetahuan. Dengan mempelajari gen, manusia dapat menemukan solusi dari banyak
permasalahan mendasar di banyak bidang kehidupan.
Misalnya,
di bidang medis, genomics dapat membantu dalam meningkatkan kualitas diagnosis
penyakit, mengidentifikasi predisposisi terhadap penyakit tertentu (misalnya diabetes
tipe 2, penyakit huntington, dll), mendeteksi virus dan bakteri penyebab
penyakit, mengembangkan obat yang disesuaikan dengan informasi genetik
seseorang (disebut juga ‘personalized medicine’, misalnya penggunaan penanda
genetik untuk membantu menentukan dosis War¬farin, obat anti penggumapalan
darah, menentukan jenis dan dosis obat untuk kanker, dll), atau memantau
pengaruh gaya hidup dan lingkungan terhadap genome dan kesehatan manusia.
Di
bidang lingkungan, genomics membantu untuk menemukan sumber-sumber energi yang
lebih sustainable seperti biofuels, mengendalikan polusi, melakukan
dekontaminasi daerah yang terkena limbah (disebut juga bioremediation, seperti
misalnya mikroba yang digunakan untuk membantu membersihkan tumpahan minyak di
teluk Meksiko), memantau keragaman hayati dan identifikasi spesies baru.
Dalam
bidang pertanian genomics dapat digunakan untuk mengembangkan tanaman yang
lebih tahan terhadap serangan hama, penyakit, dan lingkungan, dapat juga
digunakan untuk membantu mengidentifikasi hama, mengembangkan tanaman pangan
yang lebih kaya kandungan gizi, ataupun mengembangkan ternak yang lebih
berkualitas dan tahan terhadap serangan penyakit, dan lain sebagainya.
Teknologi di Balik Perkembangan
Genomics
Peran
genomics yang besar tersebut dimungkinkan dengan berkembangnya teknologi dalam
bidang pemetaan gen dan pengolahan data.
Next Generation Sequencing
Dengan
hadirnya teknologi yang disebut dengan Next Generation Sequencing, maka biaya
untuk melakukan pemetaan genetik juga mengalami penurunan yang sangat ekstrim.
Jika
sebelumnya biaya untuk melakukan sequencing atau pemetaan terhadap genome
manusia adalah sebesar 100 juta US$ (dana yang digunakan pada Human Genome
Project, yang di-launch di tahun 1986 dan selesai pada 2003), maka saat ini
biaya pemetaan genome manusia adalah sekitar 1000 US$.
Penurunan
biaya dan waktu pemrosesan menjadikan pemetaan genome menjadi sebuah proses
yang terjangkau, sehingga banyak pihak dapat turut memanfaatkan dan
mengembangkannya. Sebagai akibatnya, genomics pun menjadi sebuah bidang yang
mengalami perkembangan yang sangat cepat pada dekade terakhir ini.
Big Data
Pemetaan
dan analisis genome menghasilkan dan membutuhkan data yang sangat besar. Data
hasil sequencing dapat mencapai 130 GB lebih per genome. Dengan semakin
banyaknya genome yang dipetakan dan dianalisis, terjadilah ledakan di sisi data
yang dihasilkan.
Tantangan
selanjutnya adalah bagaimana data yang sedemikian besar dapat diproses dan
dianalisis, sehingga semakin banyak penelitian maupun pemanfaatan data genomics
dapat dilakukan.
Salah
satu pendekatannya adalah dengan cara meningkatkan kecepatan prosesor.
Teknologi seperti GPU ataupun FPGA (Field Programmable Gate Arrays) menjadi
beberapa alternatif dalam hal ini. Solusi lain adalah penggunaan cloud
computing, di mana data yang akan digunakan diproses di cloud, sehingga para
peneliti tidak perlu membangun sendiri infrastruktur yang mereka gunakan. Namun
permasalahannya adalah ketika diperlukan analisis seperti variant calling untuk
mendeteksi mutasi gen, sejumlah data yang sangat besar perlu diakses dan
dipindahkan ke environment analisis yang sesuai. Transfer data yang sangat
besar melalui jaringan menjadi sebuah permasalahan berikutnya.
Dengan
kehadiran big data, khususnya Hadoop sebagai solusi komputasi dan penyimpanan
data terdistribusi, para peneliti memiliki alternatif baru yang lebih
terjangkau. Hadoop menjadi alternatif bagi penyimpanan dan pemrosesan data
genome dengan memberikan solusi berupa : biaya yang lebih terjangkau dengan
pemanfaatan commodity hardware, peningkatan kapasitas komputasi dengan
penggunaan banyak mesin secara paralel, mengurangi data movement dengan
melakukan komputasi secara lokal, di mana data tersebut disimpan secara fisik.
Di
samping itu, saat ini telah banyak teknologi yang dikembangkan di atas ataupun
melengkapi Hadoop ekosistem, seperti misalnya Hive, Pig, Mahout, Yarn, dan lain
sebagainya. Terlebih lagi setelah munculnya Spark sebagai platform pemrosesan
in memory secara terdistribusi, big data menjadi sebuah alternatif solusi yang
tidak dapat diabaikan lagi.
Salah
satu pemanfaatan teknologi big data dalam bidang genomics ini adalah ADAM,
yaitu platform analisis genomik dengan format file khusus. Dibangun menggunakan
Apache Avro, Apache Spark dan Parquet. ADAM pada awalnya dikembangkan oleh
Universitas Berkeley dan berlisensi Apache 2.
LEDAKAN DATA DI BIDANG
GENOMICS
Salah satu bidang yang
menghasilkan data yang sangat besar adalah genomics. Seiring dengan semakin
terjangkaunya biaya pemetaan dan semakin banyak genome yang dianalisis, data
genomics akan mengalami ledakan yang dahsyat. Bidang ini bahkan diperkirakan
akan menjadi penghasil data terbesar, melebihi data astronomi misalnya.
Menurut laporan yang
dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195), di tahun 2025 akan ada antara
100 juta sampai 2 milyar human genome yang telah dipetakan. Kapasitas
penyimpanan data untuk keperluan ini saja dapat mencapai 2–40 exabytes (1
exabyte = 1018 bytes), karena jumlah data yang harus disimpan untuk sebuah
genome setidaknya memerlukan 30 kali ukuran data genome itu sendiri. Hal ini
untuk mengantisipasi adanya kesalahan yang mungkin timbul selama proses pemetaan
dan analisis pendahuluan.
Jumlah tersebut
melebihi perkiraan kapasitas penyimpanan data YouTube di tahun 2025, yang
sebesar 1-2 exabytes, dan data Twitter yang diperkirakan mencapai 1-17
petabytes per tahun (1 petabyte = 1015 bytes). Jumlah data tersebut juga
melebihi perkiraan data tahunan Square Kilometre Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298), sebuah project yang direncanakan
menjadi project astronomi terbesar di dunia.
Namun permasalahan
penyimpanan ini hanyalah salah satu permasalahan saja. Keperluan komputasi
untuk mengumpulkan, mendistribusi, dan menganalisis data genomics ini akan jauh
lebih besar lagi.
Perubahan Besar
Gene Robinson, ahli
biologi UIUC yang juga salah satu co-author paper tersebut menyatakan, hal ini
menegaskan bahwa bidang genomics akan memberikan banyak tantangan berat.
Beberapa perubahan besar perlu dilakukan untuk dapat menangani ukuran data yang
besar dan kebutuhan akan kecepatan analisis.
Narayan Desai, seorang
computer scientist dari Ericsson San Jose mengatakan bahwa perbandingan data
dengan bidang lain seperti dilaporkan dalam paper tersebut sebenarnya kurang
tepat. Ada banyak hal yang tidak diperhatikan dalam melakukan perbandingan,
seperti misalnya laporan tersebut menganggap ringan pemrosesan dan analisis
video dan teks yang dilakukan oleh YouTube maupun Twitter, seperti misalnya
untuk keperluan iklan yang terarah maupun penyajian video ke dalam format yang
beragam.
Meskipun demikian,
genomics tetap harus memperhatikan permasalahan mendasar mengenai berapa besar
data yang sebenarnya akan dihasilkan di bidang ini. Karena sehebat apapun
teknologi, kapasitas penyimpanan dan komputasi untuk mengumpulkan dan
menganalisis data tetaplah terbatas, sehingga kedua hal tersebut harus
digunakan dengan sebaik-baiknya. Karena proses pemetaan semakin terjangkau,
komunitas genomics pun tumbuh dengan sangat pesat dan tersebar. Komunitas yang
tersebar ini cukup menyulitkan dalam mengatasi permasalahan seperti yang
disebutkan di atas. Bidang-bidang lain yang memerlukan banyak resource semacam
ini, seperti misalnya high-energy physics, komunitasnya lebih terpusat. Mereka
memerlukan koordinasi dan konsensus untuk perancangan instrumen, pengumpulan
data, dan strategi sampling. Berbeda dengan data genomics yang terkotak-kotak,
meskipun akhir-akhir ini mulai muncul ketertarikan untuk menyimpan data-data
genomics secara terpusat dalam cloud.
Kerja Sama
Berbeda dengan ahli
genomics, setelah data mentah dikumpulkan para astronomer dan ahli fisika
segera memprosesnya, dan kemudian data mentah tersebut dibuang. Cara ini
menyederhanakan langkah-langkah distribusi dan analisis selanjutnya. Akan
tetapi genomics belum memiliki standar baku untuk konversi data mentah menjadi
data yang sudah diproses.
Menurut paper tersebut,
jenis analisis yang ingin dilakukan oleh para ahli biologi terhadap data
genomics ini juga sangat beragam dan metode yang digunakan belum tentu dapat
berfungsi baik dengan peningkatan volume data yang besar. Misalnya untuk
membandingkan dua genome diperlukan perbandingan antara dua set varian genetik.
“Jika kita mempunyai satu juta genome, maka jumlah perbandingannya adalah satu
juta kuadrat”, papar Saurabh Sinha, seorang komputer saintis dari UIUC dan
salah satu co-author dari paper tersebut. “Algoritma yang digunakan untuk
melakukan proses tersebut akan sangat kewalahan.”
Robert Brunner, seorang
Observational cosmologist dari UIUC mengatakan, alih-alih membandingkan bidang
ilmu, dia ingin ada sebuah kerja sama dalam mengatasi permasalahan terkait
big-data yang mencakup banyak bidang, sehingga didapatkan manfaat yang lebih
besar. Misalnya keterbatasan jenjang karir untuk spesialisasi komputasi dalam
dunia sains, dan kebutuhan akan jenis penyimpanan dan kapasitas analisis yang
belum tentu dapat dipenuhi oleh dunia industri.
“Genomics menghadapi
tantangan yang sama dengan astronomi, ilmu mengenai atmosfer, ilmu tentang
tumbuh-tumbuhan, fisika partikel, dan domain-domain big data yang lain,” kata
Brunner. “Yang penting untuk dilakukan saat ini adalah menentukan apa masalah
yang dapat kita pecahkan bersama-sama.”
Daftar Pustaka