Buat yang baru terjun atau belajar dalam dunia Artificial Intelligence mungkin akan mengenal istilah-istilah asing di dalamnya. Berikut daftar glosarium dalam machine learning dan deep learning yang sebagian saya ringkas melalui developers.google.com/machine-learning/glossary dan sepengetahuan saya. Bagi rekan-rekan yang ingin menambahkan silakan bisa tulis di kolom komentar agar saya bisa memperbaruinya dikemudian hari.
Accuracy
Dalam multi-class clasification
Akurasi = (Jumlah data benar)/(Jumlah data keseluruhan)
Dalam binary clasification
Akurasi = (True Positive + True Negative)/(Jumlah data keseluruhan)
Activation function fungsi (misal softmax, tanh, atau sigmoid) yang menggunakan jumlah bobot dari semua input lapisan sebelumnya, yang akan menghasilkan dan meneruskan nilai keluaran (biasanya nonlinear) ke lapisan berikutnya.
AdaGrad algoritme gradient descent yang mengubah skala gradien dari setiap parameter, dengan memberikan learning rate di setiap parameter independen secara efektif.
Backpropagation algoritma yang berfungsi dalam melakukan penurunan gradient pada neural network. Pertama nilai output dari setiap simpul dihitung (dan disimpan dalam cache) pada hitungan maju (forward pass). Kemudian, setiap error yang dialami dihitung dengan hitungan mundur (backward pass).
Bag of words (BoW) representasi kata-kata dalam frasa atau kalimat, terlepas dari urutannya. Misal: “anjing itu melompat”, “melompat anjing itu”, “anjing melompat itu”. Tiap kata dipetakan dalam indeks sparse vector, di mana vektor memiliki indeks tiap kata dalam kosakata.
Batch satuan set data yang digunakan dalam satu iterasi (tiap satu pembaruan gradient) dalam pelatihan model.
Batch size jumlah tumpukan dalam batch.
Binary classification klasifikasi yang menghasilkan satu dari dua kelas. Misal klasifikasi email spam atau bukan spam.
Checkpoint Data yang disimpan dalam status variabel dari suatu model pada waktu tertentu. Checkpoint dapat digunakan untuk ekport bobot model pada beberapa sesi pelatihan serta melanjutkan dari tugas sebelumnya.
Class nilai yang digunakan untuk label.
Clasification threshold nilai skalar pada skor prediksi model yang berfungsi untuk memisahkan kelas positif dari kelas negatif.
Clustering pengelompokan pada sample tertentu. Setelah semua sample terkelompokkan manusia dapat memberikan arti dari setiap kluster. Algoritme clustering : K-means
Confusion matrix tabel NxN yang berisi rangkuman seberapa sukses prediksi model klasifikasi.
Convergence status pencapaian selama pelatihan, di mana loss training & loss validation sedikit berubah atau tidak berubah sama sekali pada setiap iterasinya.
Convolutional layer neuron yang tersusun sedemikian rupa sehingga membentuk sebuah filter dengan panjang dan tinggi (pixel).
Cross validation mekanisme untuk memperkirakan seberapa baik model akan melakukan generalisasi dalam menghasilkan data baru, dengan menguji kumpulan data yang tidak tumpang tindih dari set pelatihan.
Decision boundary pemisah antar kelas / area yang dipelajari oleh model pada masalah multi class clasification atau binary clasification.
Decision tree model yang direpresentasikan sebagai urutan cabang pernyataan.
Dense layer sinonim Fully connected layer.
Dropout regularization regularisasi yang dilakukan dengan menghapus pilihan acar dari unit yang berjumlah tetap dalam neural network pada satu langkah gradient.
Early stopping metode regularisasi yang digunakan untuk mengakhiri pelatihan ketika loss train tidak mengalami penurunan.
Embeddings representasi vektor berdimensi tinggi menjadi ruang berdimensi rendah.
Epoch set pelatihan pada seluruh kumpulan data saat melewati proses forward dan backward pada semua node neural network.
False negative (FN) model yang salah memprediksi kelas negatif. Misal: email yang diprediksi bukan spam namun sebenarnya adalah spam.
False positive (FP) model yang salah memprediksi kelas positif. Misal: email yang diprediksi spam namun sebenarnya adalah bukan spam.
Fitur variabel masukkan yang digunakan dalam membuat prediksi.
Forget gate Bagian dari sel jaringan LSTM yang mempertahankan konteks dengan memutuskan informasi yang akan dibuang dari cell state.
Fully connected layer juga dikenal dense layer.Lapisan tersembunyi di mana setiap node terhubung ke setiap node lampisan tersembunyi berikutnya.
Generalization kemampuan model dalam membuat prediksi benar pada data baru yang sebelumnya tidak digunakan dalam pelatihan.
Gradient vektor turunan parsial yang terkati dengan semua variabel independen atau fungsi model.
Gradient descent teknik untuk meminimalkan loss dengan menghitung gradien loss yang terkait dengan parameter model.
Ground truth jawaban benar, realita. Proyeksi para ahli untuk menyatakan tingkat kebenaran.
Hidden layer suatu lapisan dalam neural network antara input layer (fitur) dan output layer (prediksi). Lapisan ini biasanya berupa fungsi aktivasi.
Inference dalam machine learning proses pembuatan prediksi dengan menerapkan model terlatih pada contoh yang tak berlabel. Dalam statistik proses penyesuaian parameter bergantung pada sejumlah data yang diamati.
Input layer lapisan yang menerima data masukan dalam neural network.
Iteration banyaknya batch yang diperlukan untuk menyelesaikan satu kali epoch.
K-means algoritme pengelompokan dalam unsupervised learning.
L1 Loss nilai absolut dari perbedaan antara nilai yang diprediksi model dan nilai label sebenarnya.
L2 Loss kuadrat dari L1 Loss.
L1 regularization regularisasi penyesuaian bobot sesuai dengan jumlah nilai absolut dari bobot. Regularisasi ini membantu menggerakkan bobot fitur yang tidak relevan atau hampir tidak relevan menjadi tepat 0, dengan menghapus fitur tersebut dari model.
L2 relgularization regularisasi penyesuaian bobot sesuai dengan jumlah kuadrat bobot. Regularisasi ini membantu menggerakkan bobot asing (bobot dengan nilai positif tinggi atau negatif rendah) lebih dekat ke 0 tetapi tidak benar-benar 0.
Learning rate skalar yang digunakan untuk melatih model melalui gradient descent. Setiap iterasi algoritme gradient descent mengalikan learning rate dengan gradien (perkalian bobot). Semakin besar nilai learning rate semakin cepat namun cenderung untuk sulit convergen.
Linear model model yang menetapkan satu bobot per fitur untuk membuat prediksi. Sebaliknya, hubungan bobot dengan fitur dalam deep model tidak one-to-one.
Linear regression jenis model regresi yang menghasilkan nilai berkelanjutan dari kombinasi linear fitur masukkan
Logistic regression model yang menghasilkan probabilitas untuk setiap nilai label dalam masalah klasifikasi dengan menerapkan fungsi sigmoid ke prediksi linear.
Logits vektor prediksi mentah (tidak ternormalisasi) yang menghasilkan model klasifikasi, biasanya diteruskan ke fungsi normalisasi.
Loss nilai seberapa jauh hasil prediksi model dari labelnya.
Long Short-Term Memory (LSTM) jenis sel dalam RNN yang digunakan untuk memproses data sequence dalam aplikasi handwriting recognition, machine translation, dan image captioning.
Mean absoulte error (MAE) matrik kesalahan dihitung dengan mengambil rata-rata kesalahan absolut. Dengan kata lain perbedaan absolut rata-rata antara nilai yang diharapkan di semua contoh pelatihan.
Mean squared error (MSE) dihitung dengan membagi kuadrat loss dengan jumlah sample.
MNIST kumpulan data terkompilasi untuk pengujian machine learning.
Model representasi dari apa yang telah dipelajari oleh sistem dari data pelatihan.
Multi-class clasification klasifikasi yang menggunakan lebih dari dua kelas. Misal: terdapat sekitar 64 jenis tanaman pohon maple, jadi model akan dikategorikan berupa kelas jamak.
N-gram rangkaian N kata yang berurutan. Misal bigram (2 gram ) “anjing melompat”, trigram (3 gram) “anjing melompat itu”.
Normalization proses konversi rentang nilai yang sebenarnya menjadi rentang nilai standar, biasanya -1 hingga +1 atau 0 hingga 1.
One-hot encoding satu elemen ditetapkan ke 1 kemudian elemen lainnya ditetapkan ke 0.
Optimizer implementasi algoritme gradient descent untuk pengoptimalan proses pelatihan. Misal AdaGrad, Adam, RMSProp.
Output layer lapisan keluaran dari neural network.
Overfitting model yang sangat akurat pada data latih namun model gagal dalam membuat prediksi benar pada data baru.
Padding proses yang berfungsi agar panjang kalimat menjadi sama.
Partial derivative (turunan parsial) turunan pada semua kecuali satu variabel dianggap sebagai konstanta.
Perceptron sistem yang menggunakan satu atau beberapa nilai masukkan dalam menjalankan fungsi pada jumlah masukkan yang berbobor dan menghitung satu nilai keluaran.
Pooling mengurangi satu atau beberapa matriks yang dibuat oleh convolutional layer sebelumnya ke matriks yang lebih kecil.
Prediction bias nilai yang menunjukkan seberapa jauh rata-rata prediksi dari rata-rata label dalam kumpulan data.
Pre-trained model model atau komponen model (seperti embedding) yang telah terlatih.
Precision mengidentifikasi frekuensi di mana model itu benar saat memprediksi kelas positif.
Precision = (True Positive)/(True Positive + False Positive)
Preprocessing pengolahan data sebelum digunakan untuk melakukan pelatihan pada model.
Queue sebuah operasi yang menerapkan struktur data antrean.
Recall dari semua label positif berapa banyak model yang diidentifikasi benar.
Recall = (True Positive)/(True Positive + False Negative)
Rectified Linear Unit (ReLu) jika masukan bernilai negatif atau nol, maka keluaran bernilai 0. Jika masukan bernilai positif, maka keluaran bernilai sama dengan masukan.
Recurrent Neural Network (RNN) jaringan neural yang dijalankan beberapa kali di mana setiap bagian proses dimasukkan ke proses berikutnya.
Regularization membantu untuk mencegah overfitting.
Root Mean Squared Error (RMSE) akar kuadrat dari Mean Squared Error (RMSE).
Sequence model model yang masukkannya memiliki dependensi berurutan. Misal memprediksi video berikutnya yang akan ditonton berdasarkan urutan video yang ditonton sebelumnya.
Sigmoid function fungsi yang memetakan keluaran regresi logistik atau multinomial ke probabilitas berupa nilai antara 0 dan 1.
Softmax fungsi yang memberikan nilai total probabilitas keseluruhan harus berjumlah 1.
Stochastic Gradient Descent (SGD) algoritme gradient descent yang mana ukuran batch bernilai satu.
Supervised learning melatih model dari data masukan dan labelnya yang sesuai.
Test set dataset yang digunakan untuk menguji model setelah dilakukan proses pemeriksaan pada validasi set.
Training set dataset yang digunakan untuk melatih model.
True negative (TN) model dengan benar memprediksi kelas negatif. Misal: email bukan spam yang diprediksi benar-benar bukan spam.
True positive (TP) model dengan benar memprediksi kelas positif. Misal: email spam yang diprediksi benar-benar spam.
Underfitting model dengan kemampuan prediktif yang buruk karena model belum menangkap kompleksitas dari data training.
Unsupervised learning melatih model untuk menemukan pola dalam kumpulan data yang tak berlabel. Pengelompokan ini dapat berguna pada area di mana label sulit diperoleh.
Validation set kumpulan data terpisah dari set pelatihan yang digunakan untuk menyesuaikan hyperparameter.
Vanishing gradient kecenderungan gradien awal hidden layer pada beberapa deep neural network menjadi sangat datar (rendah). Gradien yang sangat rendah menghasilkan perubahan semakin kecil pada bobot dalam node deep neural network. Sehingga model akan sulit atau tidak mungkin untuk dilatih.
Weight koefisien untuk fitur dalam model linear atau tepian dalam neural network. Jika bobot suatu fitur bernilai 0, fitur tersebut tidak akan berkontribusi pada model.