Data tidak terstruktur

Data tak terstruktur (atau informasi tak terstruktur) adalah informasi yang tidak memiliki model data tertentu sebelumnya atau tidak terorganisir dengan cara yang telah ditentukan sebelumnya. Informasi yang tidak terstruktur umumnya bertipe data teks, tetapi dapat berisi tipe data lain seperti tanggal, angka, dan fakta. Hal ini mengakibatkan data memiliki sifat tidak teratur dan ambigu yang membuatnya sulit diinterpretasi menggunakan program tradisional jika dibandingkan dengan data yang disimpan dalam basis data yang terorganisir berdasarkan bagian (field) atau diberi anotasi (memiliki tag semantik) dalam bentuk dokumen.
Pada tahun 1998, Merrill Lynch menyatakan bahwa sebagian besar data dalam sebuah organisasi bersifat tidak terstruktur, dengan beberapa perkiraan menyebutkan bahwa jumlahnya dapat mencapai 80% dari keseluruhan data.[1] Meskipun asal-usul angka ini tidak jelas, banyak pihak yang menerimanya sebagai acuan.[2] Berbagai sumber lain juga melaporkan persentase data tidak terstruktur yang sebanding atau bahkan lebih tinggi.[3][4][5]
Hingga tahun 2012, IDC dan Dell EMC memperkirakan bahwa jumlah data akan tumbuh hingga 40 zettabyte pada tahun 2020, yang berarti mengalami pertumbuhan 50 kali lipat sejak awal tahun 2010.[6]
Lebih baru lagi, IDC dan Seagate memprediksi bahwa datasphere global akan meningkat hingga 163 zettabyte pada tahun 2025,[7] dengan sebagian besar data tersebut bersifat tidak terstruktur. Majalah Computer World menyatakan bahwa informasi tidak terstruktur mungkin mencakup lebih dari 70–80% dari seluruh data dalam organisasi.[1]
Latar belakang
Penelitian awal mengenai inteligensi bisnis berfokus pada data tekstual yang tidak terstruktur, bukan data numerik.[8] Sejak tahun 1958, peneliti ilmu komputer seperti HP Luhn, memberikan perhatian kepada proses ekstraksi dan klasifikasi teks tidak terstruktur.[8] Akan tetapi, baru pada dekade 2000 teknologi tersebut mulai menarik minat penelitian. Pada tahun 2004, SAS Institute mengembangkan SAS Text Miner, yang menggunakan teknik penguraian nilai singular (Singular Value Decomposition; SVD) untuk mengurangi ruang teks dengan hiper-dimensi menjadi dimensi yang lebih kecil untuk analisis mesin yang jauh lebih efisien.[9] Kemajuan matematika dan teknologi yang dipicu oleh perkembangan analisis teks mesin mendorong sejumlah aplikasi penelitian untuk proses bisnis, yang mengarah pada pengembangan bidang seperti analisis sentimen, penambangan suara pelanggan, dan optimasi pusat panggilan.[10] Munculnya tema mahadata pada akhir tahun 2000-an menyebabkan meningkatnya minat terhadap aplikasi analitika data tidak terstruktur di bidang kontemporer seperti analisis prediktif dan analisis akar penyebab.[11]
Masalah dengan terminologi
Istilah data tidak terstruktur dipandang tidak tepat karena beberapa alasan:
- Struktur, meskipun tidak didefinisikan secara formal, masih dapat tersirat dalam kumpulan data.
- Data dengan bentuk struktur tertentu masih dapat dipandang sebagai data tidak terstruktur apabila strukturnya tidak membantu tugas pemrosesan yang sedang dilakukan.
- Informasi yang tidak terstruktur mungkin saja bisa memiliki beberapa struktur (semi-terstruktur) atau bahkan sangat terstruktur tetapi dengan cara yang tidak diantisipasi atau tidak diumumkan.
Berurusan dengan data tidak terstruktur
Teknik seperti penambangan data, pengolahan bahasa alami (NLP), dan penambangan teks menyediakan ragam cara untuk menemukan pola dalam data dan melakukan interpretasi terhadap informasi. Teknik umum untuk memberikan struktur pada teks biasanya melibatkan pemberian tag dengan metadata atau penandaan kelas kata (part of speech) untuk penyusunan lebih lanjut berdasarkan penambangan teks. Standar Arsitektur Manajemen Informasi Tidak Terstruktur (The Unstructured Information Management Architecture; UIMA) menyediakan kerangka kerja umum untuk memproses informasi ini guna mengekstrak makna dan membuat data terstruktur tentang informasi tersebut.
Perangkat lunak yang menciptakan struktur yang dapat diproses oleh mesin dapat memanfaatkan struktur linguistik, pendengaran, dan visual yang ada dalam semua bentuk komunikasi manusia.[12] Algoritma dapat menyimpulkan struktur inheren ini dari teks, misalnya, dengan memeriksa morfologi kata, sintaksis kalimat, dan pola skala kecil dan besar lainnya. Informasi yang tidak terstruktur kemudian dapat diperkaya dan diberi tag untuk mengatasi ambiguitas dan teknik berbasis relevansi kemudian digunakan untuk memfasilitasi pencarian dan penemuan. Contoh "data tidak terstruktur" dapat mencakup buku, jurnal, dokumen, metadata, catatan kesehatan, audio, video, data analog, gambar, file, dan teks tidak terstruktur seperti isi pesan email, halaman Web, atau dokumen pengolah kata . Meskipun konten utama yang disampaikan tidak memiliki struktur yang pasti, konten tersebut biasanya dikemas dalam objek (misalnya dalam file atau dokumen) yang memiliki struktur dan merupakan campuran data terstruktur dan tidak terstruktur, namun secara kolektif hal ini masih disebut sebagai "data tidak terstruktur".[13] Misalnya, halaman web HTML diberi tag, tetapi markah HTML biasanya hanya berfungsi untuk ditampilkan. Ini tidak menangkap makna atau fungsi elemen yang ditandai dengan cara yang mendukung pemrosesan otomatis konten informasi halaman. Penandaan XHTML memungkinkan pemrosesan elemen oleh mesin, meskipun biasanya tidak menangkap atau menyampaikan makna semantik istilah yang diberi tag.
Karena data tidak terstruktur umumnya terdapat dalam dokumen elektronik, penggunaan sistem manajemen konten atau dokumen yang dapat mengkategorikan seluruh dokumen sering kali lebih disukai daripada transfer dan manipulasi data dari dalam dokumen. Dengan demikian, manajemen dokumen menyediakan sarana untuk menyampaikan struktur ke dalam koleksi dokumen.
Mesin pencari telah menjadi alat yang populer untuk mengindeks dan mencari melalui data tersebut, terutama teks.
Pendekatan dalam pemrosesan bahasa alami
Alur kerja komputasi khusus telah dikembangkan untuk memaksakan struktur pada data tidak terstruktur yang terkandung dalam dokumen teks. Alur kerja ini umumnya dirancang untuk menangani kumpulan ribuan atau bahkan jutaan dokumen, atau jauh lebih banyak daripada yang diizinkan oleh pendekatan anotasi manual. Beberapa pendekatan ini didasarkan pada konsep pemrosesan analitik daring, atau OLAP, dan mungkin didukung oleh model data seperti kubus teks.[14] Setelah metadata dokumen tersedia melalui model data, pembuatan ringkasan dari subset dokumen (misalnya, sel dalam kubus teks) dapat dilakukan dengan pendekatan berbasis frasa.[15]
Pendekatan dalam bidang kedokteran dan penelitian biomedis
Penelitian biomedis menghasilkan satu sumber utama data tidak terstruktur karena peneliti sering menerbitkan temuan mereka di jurnal ilmiah. Meskipun bahasa dalam dokumen-dokumen ini sulit untuk mendapatkan elemen-elemen strukturalnya (misalnya, karena kosakata teknis yang rumit yang terkandung di dalamnya dan pengetahuan domain yang dibutuhkan untuk sepenuhnya mengontekstualisasikan observasi), hasil dari kegiatan ini dapat menghasilkan hubungan antara studi teknis dan medis [16] dan petunjuk mengenai terapi penyakit baru.[17] Upaya terbaru untuk memberikan struktur pada dokumen biomedis mencakup pendekatan peta pengorganisasian mandiri untuk mengidentifikasi topik di antara dokumen,[18] pemelajaran tak terarah umum (general unsupervised learning),[19] dan aplikasi alur kerja CaseOLAP[15] untuk menentukan hubungan antara nama protein dan topik penyakit kardiovaskular dalam literatur.[20] CaseOLAP mendefinisikan hubungan frasa-kategori dengan cara yang akurat (mengidentifikasi hubungan), konsisten (sangat dapat direproduksi), dan efisien. Platform ini menawarkan aksesibilitas yang lebih baik dan memberdayakan komunitas biomedis dengan alat penambangan frasa untuk aplikasi penelitian biomedis yang luas.[20]
Penggunaan istilah “tidak terstruktur” dalam peraturan privasi data
Di Swedia (Uni Eropa), sebelum tahun 2018, beberapa peraturan privasi data tidak berlaku jika data yang dimaksud dikonfirmasi sebagai "tidak terstruktur".[21] Terminologi ini, data tidak terstruktur, jarang digunakan di Uni Eropa setelah GDPR mulai berlaku pada tahun 2018. GDPR tidak menyebutkan atau mendefinisikan "data tidak terstruktur". Ia menggunakan kata "terstruktur" sebagai berikut (tanpa mendefinisikannya);
- Bagian dari Pertimbangan GDPR 15, "Perlindungan terhadap orang perseorangan harus berlaku untuk pemrosesan data pribadi ... jika ... terdapat dalam sistem pengarsipan."
- Pasal 4 GDPR, "'sistem pengarsipan' berarti setiap rangkaian data pribadi terstruktur yang dapat diakses menurut kriteria tertentu ..."
Yurisprudensi GDPR tentang definisi "sistem pengarsipan"; "kriteria khusus dan bentuk khusus yang digunakan untuk menyusun kumpulan data pribadi yang dikumpulkan oleh masing-masing anggota yang terlibat dalam pengkhotbah tidaklah relevan, selama kumpulan data tersebut memungkinkan data yang berkaitan dengan orang tertentu yang telah dihubungi untuk diambil dengan mudah, yang mana merupakan tugas pengadilan yang merujuk untuk memastikannya berdasarkan semua keadaan kasus dalam proses utama." ” ( CJEU, Todistajat v. Tietosuojavaltuutettu, Jehovan, Paragraf 61 ).
Jika data pribadi mudah diambil - maka itu adalah sistem pengarsipan dan - maka itu termasuk dalam cakupan GDPR terlepas dari apakah itu "terstruktur" atau "tidak terstruktur". Sebagian besar sistem elektronik saat ini, tergantung pada akses dan perangkat lunak yang diterapkan, dapat memungkinkan pengambilan data dengan mudah.
Lihat juga
Catatan
- ^ Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn't An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010
Referensi
- ^ Shilakes, Christopher C.; Tylman, Julie (16 Nov 1998). "Enterprise Information Portals" (PDF). Merrill Lynch. Diarsipkan dari asli (PDF) tanggal 24 July 2011.
- ^ Grimes, Seth (1 August 2008). "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis - Bridgepoints. Clarabridge.
- ^ Gandomi, Amir; Haider, Murtaza (April 2015). "Beyond the hype: Big data concepts, methods, and analytics". International Journal of Information Management. 35 (2): 137–144. doi:10.1016/j.ijinfomgt.2014.10.007. ISSN 0268-4012.
- ^ "The biggest data challenges that you might not even know you have - Watson". Watson (dalam bahasa American English). 2016-05-25. Diakses tanggal 2018-10-02.
- ^ "Structured vs. Unstructured Data". www.datamation.com (dalam bahasa Inggris). Diakses tanggal 2018-10-02.
- ^ "EMC News Press Release: New Digital Universe Study Reveals Big Data Gap: Less Than 1% of World's Data is Analyzed; Less Than 20% is Protected". www.emc.com. EMC Corporation. December 2012.
- ^ "Trends | Seagate US". Seagate.com (dalam bahasa American English). Diakses tanggal 2018-10-01.
- ^ a b Grimes, Seth. "A Brief History of Text Analytics". B Eye Network. Diakses tanggal June 24, 2016.
- ^ Albright, Russ. "Taming Text with the SVD" (PDF). SAS. Diarsipkan dari asli (PDF) tanggal 2016-09-30. Diakses tanggal June 24, 2016.
- ^ Desai, Manish (2009-08-09). "Applications of Text Analytics". My Business Analytics @ Blogspot. Diakses tanggal June 24, 2016.
- ^ Chakraborty, Goutam. "Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining" (PDF). SAS. Diakses tanggal June 24, 2016.
- ^ "Structure, Models and Meaning: Is "unstructured" data merely unmodeled?". InformationWeek (dalam bahasa Inggris). March 1, 2005.
- ^ Malone, Robert (April 5, 2007). "Structuring Unstructured Data". Forbes (dalam bahasa Inggris).
- ^ Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (December 2008). "Text Cube: Computing IR Measures for Multidimensional Text Database Analysis". 2008 Eighth IEEE International Conference on Data Mining (dalam bahasa American English). IEEE. hlm. 905–910. CiteSeerX 10.1.1.215.3177. doi:10.1109/icdm.2008.135. ISBN 9780769535029.
- ^ a b Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, Lance; Voss, Clare; Han, Jiawei (2016). "Multi-Dimensional, Phrase-Based Summarization in Text Cubes" (PDF).
- ^ Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (June 2006). "Recent advances in natural language processing for biomedical applications". International Journal of Medical Informatics. 75 (6): 413–417. doi:10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564.
- ^ Gonzalez, Graciela H.; Tahsin, Tasnia; Goodale, Britton C.; Greene, Anna C.; Greene, Casey S. (January 2016). "Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery". Briefings in Bioinformatics. 17 (1): 33–42. doi:10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073. PMID 26420781.
- ^ Skupin, André; Biberstine, Joseph R.; Börner, Katy (2013). "Visualizing the topical structure of the medical sciences: a self-organizing map approach". PLOS ONE. 8 (3): e58779. Bibcode:2013PLoSO...858779S. doi:10.1371/journal.pone.0058779. ISSN 1932-6203. PMC 3595294. PMID 23554924. Pemeliharaan CS1: DOI bebas tanpa ditandai (link)
- ^ Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (2015-04-01). "Unsupervised discovery of information structure in biomedical documents". Bioinformatics. 31 (7): 1084–1092. doi:10.1093/bioinformatics/btu758. ISSN 1367-4811. PMID 25411329.
- ^ a b Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei (Oct 1, 2018). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910 – H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
- ^ "Swedish data privacy regulations discontinue separation of "unstructured" and "structured"".