Pangkalan data kimia

Pangkalan data kimia adalah suatu pangkalan data yang secara khusus dirancang untuk menyimpan informasi kimia. Informasi ini mencakup struktur kimia dan kristal, spektrum, reaksi dan sintesis, serta data termofisika.

Jenis

Struktur kimia

Struktur kimia secara tradisional diwakili dengan menggunakan garis yang menunjukkan ikatan kimia antara atom dan digambar di atas kertas (rumus struktur 2D). Meskipun ini merupakan penyajian visual ideal untuk kimiawan, metode ini tidak sesuai untuk penggunaan komputasi dan terutama untuk pencarian dan penyimpanan. Molekul kecil (juga disebut ligan dalam aplikasi perancangan obat), biasanya diwakili dengan menggunakan daftar atom dan hubungannya. Molekul besar seperti protein diwakili lebih kompak dengan menggunakan rangkaian blok pembangun asam amino.

Pangkalan data kimia besar untuk struktur diharapkan menangani penyimpanan dan pencarian informasi tentang jutaan molekul yang mengambil terabyte memori fisik.

Pangkalan data sastra

Pangkalan data sastra kimia menyangkut pautkan struktur atau informasi kimia lainnya ke referensi yang relevan seperti makalah akademis atau paten. Jenis pangkalan data ini termasuk STN, Scifinder, dan Reaxys. Tautan ke literatur juga termasuk dalam banyak pangkalan data yang berfokus pada karakterisasi zat kimia.

Pangkalan data kristalografi

Pangkalan data kristalografi menyimpan data struktur kristal dari hasil kristalografi sinar-X. Contoh umum meliputi Protein Data Bank dan Cambridge Structural Database.

Pangkalan data spektrum NMR

Pangkalan data spektrum NMR menghubungkan struktur kimia dengan data NMR. Pangkalan data ini sering menyertakan data karakterisasi lainnya seperti FTIR dan spektrometri massa.

Pangkalan data reaksi

Sebagian besar pangkalan data kimia menyimpan informasi pada molekul yang stabil namun dalam pangkalan data untuk reaksi juga zat antara dan molekul yang dibuat sementara tidak disimpan. Pangkalan data reaksi berisi informasi tentang produk, eduk, dan mekanisme reaksi.

Pangkalan data termofisika

Data termofisika adalah informasi tentang

Kesetimbangan fasa termasuk kesetimbangan uap-cair, kelarutan gas dalam cairan, cairan dalam padatan (SLE), pemanasan, penguapan, dan fusi.
Data kalor seperti kapasitas panas, panas pembentukan dan panas pembakaran,
Sifat transportasi seperti viskositas dan konduktivitas termal

Penyajian struktur kimia

Terdapat dua teknik utama untuk menyajikan struktur kimia dalam pangkalan data digital

Sebagai tabel koneksi/adjacency matrices/daftar dengan informasi tambahan mengenai ikatan (tepi) dan atribut atom (node), seperti:
MDL Molfile, PDB, CML
Sebagai notasi string linear berdasarkan kedalaman pertama atau keluasan pencarian pertama, seperti:
SMILES/SMARTS, SLN, WLN, InChI

Pendekatan ini telah disempurnakan untuk memungkinkan penyajian perbedaan stereokimia dan muatan serta jenis ikatan khusus seperti yang terlihat pada senyawa organologam. Keuntungan utama dari penyajian komputer adalah kemungkinan untuk meningkatkan penyimpanan dan pencarian cepat serta fleksibel.

Pencarian

Substruktur

Kimiawan dapat mencari pangkalan data dengan menggunakan bagian-bagian struktur, bagian dari nama IUPAC mereka dan juga berdasarkan pada batasan pada sifatnya. Pangkalan data kimia sangat berbeda dengan pangkalan data tujuan umum lainnya dalam dukungan mereka untuk pencarian sub-struktur. Jenis pencarian ini dicapai dengan mencari subgrafik isomorfisme (terkadang juga disebut monomorfisme) dan merupakan aplikasi teori graf yang banyak dipelajari. Algoritme untuk pencarian bersifat komputasi intensif, sering kali O (n³) atau O (n⁴) kali kompleksitas (di mana n adalah jumlah atom yang terlibat). Komponen pencarian yang intensif disebut atom-by-atom-searching (ABAS), di mana pemetaan pencarian substruktur atom dan ikatan dengan molekul target dicari. Pencarian ABAS biasanya menggunakan algoritme Ullman^[1] atau variasinya (mis. SMSD^[2]). Percepatan dicapai dengan amortisasi waktu, yaitu beberapa saat pada tugas pencarian disimpan dengan menggunakan informasi prakomputasi. Perhitungan awal ini biasanya melibatkan pembuatan bitstring yang mewakili ada tidaknya fragmen molekul. Dengan melihat fragmen yang ada dalam struktur pencarian, dimungkinkan untuk menghilangkan kebutuhan perbandingan ABAS dengan molekul target yang tidak memiliki fragmen yang ada dalam struktur pencarian. Penghapusan ini disebut skrining/ penyaringan (jangan dikelirukan dengan prosedur penyaringan yang digunakan dalam penemuan obat terlarang). Bit-string yang digunakan untuk aplikasi ini juga disebut kunci struktural. Kinerja tombol seperti itu tergantung pada pilihan fragmen yang digunakan untuk membangun kunci dan kemungkinan kehadiran mereka dalam pangkalan data molekul. Jenis kunci lainnya menggunakan hash-code berdasarkan fragmen yang diturunkan secara komputasi. Hal ini disebut 'sidik jari' meski istilahnya kadang-kadang digunakan secara sinonim dengan kunci struktural. Jumlah memori yang dibutuhkan untuk menyimpan kunci struktural dan sidik jari ini dapat dikurangi dengan 'lipat', yang dicapai dengan menggabungkan bagian-bagian kunci dengan menggunakan operasi bitwise dan dengan demikian mengurangi keseluruhan panjangnya.^[3]

Konformasi

Pencarian dengan mencocokkan konformasi 3D dari molekul atau dengan menentukan batasan spasial adalah fitur lain yang terutama digunakan dalam desain obat. Penelusuran semacam ini bisa sangat mahal. Banyak metode perkiraan yang telah diajukan, misalnya BCUTS, penyajian fungsi khusus, momen inersia, histogram penelusuran sinar, histogram jarak jauh, bentuk multipola untuk beberapa nama.^[4]^[5]^[6]^[7]^[8]

Deskriptor

Semua sifat molekul di luar strukturnya dapat dibagi menjadi atribut fisikokimia atau farmakologi yang juga disebut deskriptor. Selain itu, ada berbagai sistem penamaan buatan dan yang kurang lebih standar untuk molekul yang memasok lebih banyak atau lebih banyak nama dan sinonim yang tidak jelas. Nama IUPAC biasanya merupakan pilihan yang baik untuk mewakili struktur molekul dalam string yang mudah dibaca dan unik meskipun menjadi berat bagi molekul yang lebih besar. Nama trivial di sisi lain semakin banyak dengan homonim dan sinonim dan oleh karena itu merupakan pilihan yang buruk untuk mendefinisikan kunci pangkalan data. Sementara deskriptor fisiko-kimia seperti berat molekul, muatan (parsial), kelarutan, dan lain-lain dapat dihitung secara langsung berdasarkan struktur molekul, deskriptor farmakologis hanya dapat diturunkan. Secara tidak langsung menggunakan statistik multivariat yang terlibat atau hasil eksperimen (pemilihan, bioassay). Semua deskriptor tersebut dapat karena alasan usaha komputasi disimpan bersamaan dengan penyajian molekul dan biasanya seperti itu.

Kesamaan

Tidak ada definisi tunggal dari kesamaan molekuler, namun konsepnya dapat didefinisikan sesuai dengan aplikasi dan sering digambarkan sebagai invers dari ukuran jarak dalam ruang deskriptor. Dua molekul mungkin dianggap lebih mirip misalnya jika perbedaannya berat molekul lebih rendah daripada bila dibandingkan dengan yang lain. Berbagai ukuran lain dapat dikombinasikan untuk menghasilkan ukuran jarak beragam. Tindakan jarak sering dikelompokkan ke dalam ukuran Euclidean dan non-Euclidean tergantung pada apakah pertidaksamaan segitiga berlaku. Maximum Common Subgraph (MCS) berdasarkan pencarian substruktur^[2](kesamaan atau ukuran jarak) juga sangat umum. MCS juga digunakan untuk penyaringan obat seperti senyawa dengan cara "memukul" molekul, yang memiliki subgraf umum (substruktur).^[9]

Bahan kimia dala pangkalan data mungkin dikelompokkan ke dalam kelompok molekul yang 'serupa' berdasarkan kesamaan. Pendekatan clustering hierarkis dan non-hirarkis dapat diterapkan pada entitas kimia dengan beberapa atribut. Atribut atau sifat molekuler ini dapat ditentukan secara empiris atau komputasi berbasis deskriptor. Salah satu pendekatan clustering yang paling populer adalah algoritme Jarvis-Patrick.^[10]

Dalam farmakologi penyimpanan kimia yang berorientasi, kesamaan biasanya didefinisikan dalam kaitannya dengan efek biologis senyawa (ADME/tox) yang pada gilirannya dapat disimpulkan secara semi-otomatis dari kombinasi deskriptor fisiko-kimia yang serupa dengan menggunakan metode QSAR.

Sistem pencatatan

Sistem pangkalan data untuk memelihara catatan unik pada senyawa kimia disebut sebagai sistem pencatatan. Sistem ini sering digunakan untuk pengindeksan kimia, sistem paten dan pangkalan data industri.

Sistem pencatatan biasanya memberlakukan keunikan bahan kimia yang ditunjukkan dalam pangkalan data melalui penggunaan penyajian unik. Dengan menerapkan peraturan yang didahulukan untuk menghasilkan notifikasi yang diperkuat, seseorang dapat memperoleh penyajian rangkaian unik/'kanonikal' seperti 'kanonikal SMILES'. Beberapa sistem pencatatan seperti sistem CAS menggunakan algoritme untuk menghasilkan kode hash unik untuk mencapai tujuan yang sama.

Perbedaan utama antara sistem pencatatan dan pangkalan data kimia sederhana adalah kemampuan untuk secara tepat mewakili apa yang diketahui, tidak diketahui, dan sebagian diketahui. Misalnya, pangakalan data kimia mungkin menyimpan molekul dengan stereokimia tidak ditentukan, sedangkan sistem pencatatan kimia mengharuskan petugas pendaftaran untuk menentukan apakah konfigurasi stereo tidak diketahui, campuran tertentu (yang dikenal), atau rasemat. Masing-masing akan dianggap sebagai catatan yang berbeda dalam sistem pencatatan kimia.

Sistem pencatatan juga molekul praolah untuk menghindari mempertimbangkan perbedaan sepele seperti perbedaan ion halogen dalam bahan kimia.

Contohnya adalah sistem pencatatan Chemical Abstracts Service (CAS). Lihat pula nomor CAS.

Perangkat

Penyajian komputasi biasanya dibuat transparan bagi para kimiawan dengan tampilan grafis data. Entri data juga disederhanakan melalui penggunaan editor struktur kimia. Penyunting ini secara internal mengubah data grafis menjadi penyajian komputasi.

Terdapat pula banyak algoritme untuk interkonversi berbagai format penyajian. Utilitas sumber terbuka untuk konversi adalah OpenBabel. Algoritme pencarian dan konversi ini diterapkan baik dalam sistem pangkalan data itu sendiri atau seperti sekarang tren diterapkan sebagai komponen eksternal yang sesuai dengan sistem pangkalan data relasional standar. Baik sistem berbasis Oracle dan PostgreSQL menggunakan teknologi kartrid yang memungkinkan tipe data yang ditentukan pengguna. Ini memungkinkan pengguna membuat kueri SQL dengan kondisi pencarian kimia (Misalnya, kueri untuk mencari catatan yang memiliki cincin fenil dalam strukturnya yang ditunjukkan sebagai string SMILES di kolom SMILESCOL dapat berupa

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algoritme untuk konversi nama IUPAC menjadi penyajian struktur dan sebaliknya juga digunakan untuk mengekstrak informasi struktur dari teks. Namun, terdapat kesulitan karena adanya beberapa dialek IUPAC. Pekerjaan tengah dilakukan untuk menetapkan standar IUPAC yang unik (lihat InChI).

Lihat pula

Referensi

^ Ullmann, Julian R. (1976), "An algorithm for subgraph isomorphism", Journal of the ACM, 23 (1): 31–42, doi:10.1145/321921.321925
^ ^a ^b Rahman, S. A.; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2000). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
^ Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007). "Processing of Small Molecule Databases for Automated Docking". Medicinal Chemistry. 3 (1): 107–113. doi:10.2174/157340607779317481.
^ Pearlman, R.S.; Smith, K.M. (1999). "Metric Validation and the Receptor-Relevant Subspace Concept". J. Chem. Inf. Comput. Sci. 39: 28–35. doi:10.1021/ci980137x.
^ Lin, Jr., Hung; Clark, Timothy (2005). "An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties". JCIM. 45 (4): 1010–1016. doi:10.1021/ci050059v.
^ Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Shape Signatures: speeding up computer aided drug discovery". DDT 2006. 19–20: 895–904.
^ Grant, J. A; Gallardo, M. A.; Pickup, B. T. (1996). "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape". JCIC. 17 (14): 1653–1666. doi:10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k.
^ Ballester, P. J.; Richards, W. G. (2007). "Ultrafast shape recognition for similarity search in molecular databases". Proceedings of the Royal Society A. 463: 1307–1321. doi:10.1098/rspa.2007.1823.
^ Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2009). "Small Molecule Subgraph Detector (SMSD) Toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12. Diarsipkan dari asli tanggal 2020-01-28. Diakses tanggal 2017-06-21. ; Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
^ Butina, Darko (1999). "Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets". Chem. Inf. Comput. Sci. 39: 747–750. doi:10.1021/ci9803381.

[1] Ullmann, Julian R. (1976), "An algorithm for subgraph isomorphism", Journal of the ACM, 23 (1): 31–42, doi:10.1145/321921.321925

[SMSD09-2] Rahman, S. A.; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2000). "Small Molecule Subgraph Detector (SMSD) toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)

[3] Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007). "Processing of Small Molecule Databases for Automated Docking". Medicinal Chemistry. 3 (1): 107–113. doi:10.2174/157340607779317481.

[4] Pearlman, R.S.; Smith, K.M. (1999). "Metric Validation and the Receptor-Relevant Subspace Concept". J. Chem. Inf. Comput. Sci. 39: 28–35. doi:10.1021/ci980137x.

[5] Lin, Jr., Hung; Clark, Timothy (2005). "An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties". JCIM. 45 (4): 1010–1016. doi:10.1021/ci050059v.

[6] Meek, P. J.; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Shape Signatures: speeding up computer aided drug discovery". DDT 2006. 19–20: 895–904.

[7] Grant, J. A; Gallardo, M. A.; Pickup, B. T. (1996). "A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape". JCIC. 17 (14): 1653–1666. doi:10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k.

[8] Ballester, P. J.; Richards, W. G. (2007). "Ultrafast shape recognition for similarity search in molecular databases". Proceedings of the Royal Society A. 463: 1307–1321. doi:10.1098/rspa.2007.1823.

[9] Rahman, S. Asad; Bashton, M.; Holliday, G. L.; Schrader, R.; Thornton, J. M. (2009). "Small Molecule Subgraph Detector (SMSD) Toolkit". Journal of Cheminformatics. 1: 12. doi:10.1186/1758-2946-1-12. Diarsipkan dari asli tanggal 2020-01-28. Diakses tanggal 2017-06-21. ; Pemeliharaan CS1: DOI bebas tanpa ditandai (link)

[10] Butina, Darko (1999). "Unsupervised Data Base Clustering Based on Daylight's Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets". Chem. Inf. Comput. Sci. 39: 747–750. doi:10.1021/ci9803381.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]