DATA SCIENCE DALAM PERSPEKTIF STATISTIKA
Keywords:
data, science, statistikaSynopsis
Dalam era teknologi digital dan data berskala besar kita
sulit untuk melakukan analisis hanya dengan menggunakan metode
statistik konvensional. Maka penulis mencoba untuk memberikan solusi
alternatif dengan menggunakan pendekatan komprehensif statistika,
sistem informasi, dan expertise. Ke depan penggunaan komprehensif
dalam rangka pengembang data science menjadi sangat penting.
Dalam Bab A diuraikan pengertian Data Science yang saat ini maju
begitu pesat seiring dengan kemajuan teknologi digital. Diuraikan pula
komponen pendukung Data Science yang meliputi Statistika/Matematika,
Sistem Informasi/Ilmu Komputer dan Expertise dari Knowledge.
Dalam Bab B diuraikan tentang data tak terstruktur yang berbeda
dengan data terstruktur yang sering digunakan dalam pendekatan kuantitatif. Dalam unsupervised learning banyak digunakan data tak
terstruktur untuk pemodelan yang menggunakan algoritma clustering.
Dalam Bab C diuraikan tentang regresi dan prediksi. Regresi dalam
perspektif statistika digunakan pengujian hipotesis. Dari perspektif
dimensi data yang terkait dengan banyaknya variabel yang dianalisis,
diuraikan sejumlah metode regresi untuk data dengan besar sampel yang
lebih besar dari pada jumlah variabel. Untuk data yang berdimensi tinggi
ketika jumlah variabel lebih besar dari pada besar sampel digunakan
metode regresi modern seperti komponen utama, ridge regression dan
LASSO regression.
Dalam Bab D diuraikan tentang klasifikasi dan pengujian
hipotesis. Klasifikasi biner banyak digunakan untuk prediksi dalam
pembelajaran mesin. Dalam perspektif pembelajaran mesin, klasifikasi
biner diwujudkan dalam bentuk confusion matrix. Dari confusion matrik
dipelajari sensitivity, specificity, true positive/negative rate dan precision.
Dalam pengujian hipotesis, dibahas tentang galat tipe 1 dan 2, Kuat uji
dan algoritma pengujian hipotesis dengan menggunakan statistik uji
seperti T, Z.
Dalam Bab E diuraikan tentang pengertian deep learning yang
merupakan subset dari pembelajaran mesin. Untuk meniru cara orang
berpikir dan belajar, deep learning menggunakan konsep jejaring saraf
tiruan. Berbeda dengan pembelajaran mesin yang banyak menggunakan
data numerik, pada deep learning data yang digunakan adalah non
numerik seperti teks, citra, audio dan video dengan skala data besar yang
perlu pendekatan jejaring saraf tiruan.
Downloads
References
Ahmed, M. 2021. The Graphical Model In ML. https://ai.plainenglish.io/thegraphical-
model-in-machine-learning-43c0295c6f39 090323
Agarwal, P. 2021. Binary Classification vs Hypothesis Testing explained using
real life Covid 19 use-cases. https://medium.com/analytics-vidhya/binaryclassification-
vs-hypothesis-testing-explained-using-real-life-covid-19-
use-cases-a017a728650d 270223
Arvai, K. 2023. K-Means Clustering in Python: A Practical Guide. https://
realpython.com/k-means-clustering-python/ 160223
Banoula, M. 2023. What is Perceptron: A Beginners Guide for Perceptron. https://
www.simplilearn.com/tutorials/deep-learning-tutorial/perceptron
Barraza, J.F., Droguett, E.L., and Martins, M.R. 2021.Towards Interpretable
Deep Learning: A Feature Selection Framework for Prognostics and
Health Management Using Deep Neural Networks. Sensor. 21. 5888
Bird, S., Klein, E., Loper, E. 2009. Natural Language Processing with Python:
Analyzing Text with Natural Langueage Toolkit 1st Edition. Beijing. O’Reilly.
Brownlee, J. 2020. How to Develop LASSO Regression Models in Python. https://
machinelearningmastery.com/lasso-regression-with-python/ 260223

BISAC
- COM021030 Computers / Data Science / Data Analytics
- MAT029000 Mathematics / Probability & Statistics / General
Published
Series
Categories
License

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.