Ilustrasi big data | Pixabay

Iqtishodia

Sains Data Versus Statistika

Definisi sains data sebenarnya intisari statistika, yaitu sebagai tongkat pembimbing di daerah ketidaktahuan.

OLEH Prof. Bambang Juanda, Dosen Departemen Ilmu Ekonomi FEM IPB

Dalam era teknologi informasi seperti saat ini, kita mudah mencari berbagai data atau informasi perkembangan ekonomi dan juga cuaca di suatu wilayah, mencari jalur yang paling cepat yang tidak begitu macet ke tempat tujuan, trending topic di dunia maya, mencari suatu produk di toko online, dan bahkan dapat mencari informasi isi suatu artikel dalam suatu jurnal dengan ChatGPT.

Dalam pengumpulan data yang sangat besar (big data) dari berbagai sumber ini, Statistika membutuhkan computer science untuk melakukan data engineering dan membangun basis datanya. Data ini bukan sekadar data kualitatif dan kuantitatif, tapi juga bentuknya berbagai macam, seperti angka, teks, gambar dan video. Dalam rekapitulasi data pemilu yang begitu banyak kejanggalannya, ini bisa terjadi karena tim KPU kurang dibekali ilmu Statistika yang memadai. Bagaimana mungkin bisa terbaca data form C1 hasil scanning sampai lebih dari 500 pemilih dalam satu TPS?

Berarti ada masalah dalam modelling program sirekap KPU, termasuk dalam analisis deskriptifnya (organizing, summarizing and visualization) untuk menyarikan keterangan dari data yang besar yang terkumpul dalam visualisasi seperti ringkasan angka, tabel, grafik, peta, geospasial untuk memudahkan pembahasan dan penarikan kesimpulan. Dalam analisis statistika inferensia, yaitu mengambil kesimpulan berdasarkan sampel atau data yang tidak lengkap, misalnya, dalam analisis regresi dan clustering.

Statistika juga berkembang dengan pendekatan berbasis pola yang dinamis (dynamic pattern based) karena banyak data atau informasi baru yang penting, relevan dan datang dengan begitu cepat serta mudah diambil untuk mempertajam hasil analisis yang dulu dikenal dengan bayesian inference. Dan semua analisis ini membutuhkan computer science.

Sebelum pengumpulan berbagai data dan analisisnya, statistisi harus memahami rumusan masalahnya (business knowledge) karena ilmu statistika ini sebenarnya interdisipliner. Tanpa pengetahuan ini, nanti akan banyak data yang relevan tapi tidak dikumpulkan dan dimasukkan (missing or omitted relevant variables) dalam analisis model statistika.

Kalau kita membaca dari berbagai literatur atau internet, banyak versi definisi tentang “sains data”, namun intinya ada keterkaitan dalam ketiga aspek yang dijelaskan sebelumnya, yaitu interelasi antara statistika, sains komputer, dan business knowledge. Ada juga referensi yang mereduksi atau mengerdilkan substansi statistika, yaitu hanya sekedar kajian yang terkait dengan aspek probabilitasnya saja, tidak termasuk berbagai analisis data eksplorasi (exploratory data analysis) dan berbagai analisis inferensia seperti regresi dan clustering yang membutuhkan algoritma atau analisis numerik yang membutuhkan pemrograman komputer yang kita kenal sekarang dengan nama pembelajaran mesin (machine learning).

Statistika awalnya memang berkembang dari teori probabilitas dalam matematika, tapi terus berkembang cepat dan luas sesuai kebutuhan terkait dengan berbagai kajian berbasis data dengan pendekatan ilmiah (DS), sehingga menjadi disiplin ilmu tersendiri yang untuk beberapa aspek tertentu tidak diajarkan di program studi Matematika.

Jargon “Data Science (DS)” muncul karena tulisan Davenport tahun 2012 (Harverd Business Review), yaitu "Data Scientist: The Sexiest Jobs in the 21st century:. Walaupun saat ini mungkin sudah melewati fase “the peak of inflated expectation” dan mungkin juga mulai memasuki fase “the trough of disillusionment”.

Oleh karena itu DS sebagai program (studi) karena trending topic bisa berubah. September 2015, University of Michigan mengumumkan “Data Science Initiative (DSI)” yang dalam siaran persnya menyatakan, “Data science has become a fourth approach to scientific discovery, in addition to experimentation, modeling, and computation.”

Jadi ini hanya pendekatan saja dalam Statistika. Begitu juga kalau membaca situs web DSI memberi kita gambaran tentang SD adalah “This coupling of scientific discovery and practice involves the collection, management, processing, analysis, visualization, and interpretation of vast amounts of heterogeneous data associated with a diverse array of scientific, translational, and inter-disciplinary applications.

Definisi Sains Data ini sebenarnya “intisari” dari Statistika, yaitu sebagai tongkat pembimbing di daerah ketidaktahuan. Di Indonesia sekarang ini sudah berkembang program studi Sains Data yang diselenggarakan oleh 10 perguruan tinggi, baik negeri maupun swasta dibawah Departeman Statistika atau ilmu komputer (informatika), yang awalnya dipelopori oleh beberapa perguruan tinggi swasta.

Seperti biasa, banyak lembaga pendidikan di Indonesia yang mulai ikut-ikutan, bahkan program yang merupakan trending topic ini, yang sebenarnya bisa terus berubah, ada yang akan menjadikannya sebagai nama sekolah atau fakultas di suatu perguruan tinggi.

Gerakan “Literasi Umat” merupakan ikhtiar untuk memudahkan masyarakat mengakses informasi. Gerakan bersama untuk menebarkan informasi yang sehat ke masyarakat luas. Oleh karena informasi yang sehat akan membentuk masyarakat yang sehat.

Donasi Literasi Umat