More Info
KPOP Image Download
  • Top University
  • Top Anime
  • Home Design
  • Top Legend



  1. ENSIKLOPEDIA
  2. Pemelajaran pengukuhan - Wikipedia bahasa Indonesia, ensiklopedia bebas
Pemelajaran pengukuhan - Wikipedia bahasa Indonesia, ensiklopedia bebas

Pemelajaran pengukuhan

  • العربية
  • Български
  • বাংলা
  • Bosanski
  • Català
  • کوردی
  • Čeština
  • Deutsch
  • Ελληνικά
  • English
  • Español
  • Eesti
  • Euskara
  • فارسی
  • Suomi
  • Français
  • עברית
  • Հայերեն
  • Italiano
  • 日本語
  • 한국어
  • Bahasa Melayu
  • Nederlands
  • Norsk bokmål
  • ଓଡ଼ିଆ
  • Polski
  • Português
  • Runa Simi
  • Русский
  • Simple English
  • Slovenščina
  • Српски / srpski
  • Svenska
  • Türkçe
  • Українська
  • Tiếng Việt
  • 吴语
  • 中文
  • 粵語
Sunting pranala
  • Halaman
  • Pembicaraan
  • Baca
  • Sunting
  • Sunting sumber
  • Lihat riwayat
Perkakas
Tindakan
  • Baca
  • Sunting
  • Sunting sumber
  • Lihat riwayat
Umum
  • Pranala balik
  • Perubahan terkait
  • Pranala permanen
  • Informasi halaman
  • Kutip halaman ini
  • Lihat URL pendek
  • Unduh kode QR
Cetak/ekspor
  • Buat buku
  • Unduh versi PDF
  • Versi cetak
Dalam proyek lain
  • Wikimedia Commons
  • Butir di Wikidata
Tampilan
Dari Wikipedia bahasa Indonesia, ensiklopedia bebas
Bagian dari seri
Pemelajaran mesin
dan Penggalian Data
Ilustrasi Jaringan saraf tiruan
Paradigma
  • Pemelajaran terawasi
  • Pemelajaran tak terawasi
  • Pemelajaran mesin daring
  • Pemelajaran mesin luring
  • Meta-learning
  • Pemelajaran semi terawasi
  • Pemelajaran terawasi mandiri
  • Pemelajaran pengukuhan
  • Pemelajaran berbasis aturan
  • Pemelajaran mesin kuantum
Masalah
  • Klasifikasi
  • Model generatif
  • Regresi
  • Kluster
  • Reduksi dimensi
  • Estimasi densitas
  • Deteksi anomali
  • Pembersihan data
  • AutoML
  • Aturan asosiasi
  • Analisis semantik
  • Rekayasa fitur
  • Pemelajaran fitur
Pemelajaran diawasi
(Klasifikasi • Regresi)
  • Pohon keputusan
  • Pemelajaran ensambel
    • Bagging
    • boosting
    • Random forest
  • k-NN
  • Regresi linear
  • Naive Bayes
  • Jaringan saraf tiruan
  • Regresi logistik
  • Perseptron
  • Support vector machine (SVM)
Kekelompokkan
  • BIRCH
  • CURE
  • Hierarki
  • k-means
  • Fuzi
Reduksi dimensionalitas
  • AKU
Jaringan saraf tiruan
  • Pemelajaran dalam
  • Jaringan saraf konvolusional
Diagnostik model
  • Kurva belajar
  • l
  • b
  • s

Pemelajaran pengukuhan (PP), pemelajaran penguatan atau Reinforcement learning (RL) adalah suatu bidang antar disiplin ilmu dalam pemelajaran mesin dan kendali optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil tindakan di lingkungan yang dinamis dalam rangka untuk memaksimalkan imbalan bertumpuk-tumpuk. Pemelajaran pengukuhan adalah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Pemelajaran pengukuhan berbeda dengan pemelajaran terawasi dari dua sisi, yaitu tak membutuhkan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pembetulan secara terang-terangan untuk tindakan yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara penjelajahan (wilayah yang belum dipetakan) dan pemanfaatan (pengetahuan saat ini).[1]

Lingkungan PP biasanya dinyatakan dalam bentuk proses keputusan Markov (PKM) karena banyaknya algoritma PP yang dalam hal ini menggunakan teknik pemrograman dinamis.[2] Namun, terdapat perbedaan utama antara PP dengan pemrograman dinamis, yaitu PP tak membutuhkan pengetahuan pasti model matematis dari PKM, melainkan PP ini menujukan PKM yang besar dan rumit yang untuk mendapatkan model yang pasti menjadi sulit atau tidak mungkin dilakukan.[3]

Referensi

[sunting | sunting sumber]
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Diarsipkan dari asli tanggal 2001-11-20.
  2. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563. Pemeliharaan CS1: Lokasi tanpa penerbit (link)

Sumber

[sunting | sunting sumber]
  • Sutton, Richard S.; Barto, Andrew G. (2018) [1998]. Reinforcement Learning: An Introduction (Edisi 2nd). MIT Press. ISBN 978-0-262-03924-6.
  • Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi 1st). Springer Verlag, Singapore. ISBN 978-9-811-97783-1.
  • Bertsekas, Dimitri P. (2023) [2019]. REINFORCEMENT LEARNING AND OPTIMAL CONTROL (Edisi 1st). Athena Scientific. ISBN 978-1-886-52939-7.

Bacaan lanjutan

[sunting | sunting sumber]
  • Annaswamy, Anuradha M. (3 May 2023). "Adaptive Control and Intersections with Reinforcement Learning". Annual Review of Control, Robotics, and Autonomous Systems (dalam bahasa Inggris). 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144. S2CID 255702873.
  • Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
  • Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
  • François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
  • Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Diarsipkan dari asli tanggal 2016-07-31. Diakses tanggal 2010-09-08.
  • Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009.
  • Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. hlm. 1031–1038. Diarsipkan dari asli (PDF) tanggal 2010-07-14.

Pranala luar

[sunting | sunting sumber]
  • Repositori Reinforcement Learning
  • Reinforcement Learning dan Kecerdasan buatan (RLAI, laboratorium Rich Sutton di Universitas Alberta)
  • Laboratorium Pemelajaran otonom (ALL, Laboratorium Andrew Barto di Universitas Massachusetts Amherst)
  • Eksperimen RL dunia nyata Diarsipkan 2018-10-08 di Wayback Machine. di Delft University of Technology
  • Kuliah Andrew NG di Universitas Standord terkait RL
  • Membedah RL Rangkaian posting blog tentang RL dengan kode Python
  • Mengintip (Lebih Jauh) ke dalam RL
  • l
  • b
  • s
Bidang utama ilmu komputer
Catatan: Templat ini secara kasar mengikuti Sistem Klasifikasi Komputasi ACM tahun 2012.
Perangkat keras
  • Papan sirkuit cetak
  • Periferal
  • Sirkuit terpadu
  • Integrasi skala sangat besar
  • Sistem pada chip (SoCs)
  • Konsumsi energi
  • Otomasi desain elektronik
  • Akselerasi perangkat keras
Organisasi
sistem komputer
  • Arsitektur komputer
  • Sistem benam
  • Komputasi waktu nyata
  • Keandalan
Jaringan
  • Arsitektur jaringan
  • Protokol jaringan
  • Perangkat keras jaringan
  • Penjadwal jaringan
  • Evaluasi kinerja jaringan
  • Layanan jaringan
Organisasi
perangkat lunak
  • Penerjemah
  • Peranti tengah
  • Mesin virtual
  • Sistem operasi
  • Kualitas perangkat lunak
Notasi dan alat
perangkat lunak
  • Paradigma pemrograman
  • Bahasa pemrograman
  • Kompilator
  • Bahasa khusus domain
  • Bahasa pemodelan
  • Kerangka kerja perangkat lunak
  • Lingkungan pengembangan terpadu
  • Manajemen konfigurasi perangkat lunak
  • Pustaka perangkat lunak
  • Repositori perangkat lunak
Pengembangan
perangkat lunak
  • Variabel kontrol
  • Proses pengembangan perangkat lunak
  • Analisis kebutuhan
  • Desain perangkat lunak
  • Konstruksi perangkat lunak
  • Penyebaran perangkat lunak
  • Pemeliharaan perangkat lunak
  • Tim pemrogram
  • Model sumber terbuka
Teori komputasi
  • Model komputasi
  • Bahasa formal
  • Teori otomata
  • Teori komputabilitas
  • Teori kompleksitas komputasional
  • Logika
  • Semantik
Algoritma
  • Desain algoritma
  • Analisis algoritma
  • Efisiensi algoritma
  • Algoritma acak
  • Geometri komputasi
Komputasi
matematika
  • Matematika diskrit
  • Peluang
  • Statistika
  • Perangkat lunak matematis
  • Teori informasi
  • Analisis matematis
  • Analisis numerik
  • Ilmu komputer teoritis
Sistem informasi
  • Pangkalan data
  • Sistem penyimpanan informasi
  • Sistem informasi perusahaan
  • Sistem informasi sosial
  • Sistem informasi geografis
  • Sistem pendukung keputusan
  • Sistem pengendalian proses
  • Sistem informasi multimedia
  • Penggalian data
  • Perpustakaan digital
  • Serambi
  • Pemasaran digital
  • World Wide Web
  • Sistem temu balik informasi
Keamanan
  • Kriptografi
  • Metode formal
  • Peretas
  • Layanan keamanan
  • Sistem deteksi intrusi
  • Keamanan perangkat keras
  • Keamanan jaringan
  • Keamanan informasi
  • Keamanan aplikasi
Interaksi
manusia-komputer
  • Desain interaksi
  • Komputasi sosial
  • Komputasi di mana-mana
  • Visualisasi
  • Aksesibilitas
Kongruensi
  • Komputasi kongruensi
  • Komputasi paralel
  • Komputasi terdistribusi
  • Multithreading
  • Multipengolahan
Kecerdasan buatan
  • Pemrosesan bahasa alami
  • Representasi pengetahuan dan penalaran
  • Visi komputer
  • Perencanaan dan penjadwalan otomatis
  • Metodologi pencarian
  • Metode kontrol
  • Filsafat kecerdasan buatan
  • Kecerdasan buatan terdistribusi
Pembelajaran mesin
  • Pemelajaran terarah
  • Pemelajaran tak terarah
  • Pemelajaran kukuh
  • Pemelajaran multi-tugas
  • Validasi silang
Grafika
  • Animasi
  • Rendering
  • Manipulasi citra
  • Unit pemroses grafis
  • Realitas campuran
  • Realitas virtual
  • Pemampatan citra
  • Solid modeling
Komputasi terapan
  • Komputasi kuantum
  • Perdagangan elektronik
  • Perangkat lunak perusahaan
  • Matematika komputasional
  • Fisika komputasional
  • Kimia komputasional
  • Biologi komputasional
  • Ilmu sosial komputasional
  • Teknik komputasional
  • Informatika kedokteran
  • Seni digital
  • Penerbitan elektronik
  • Peperangan dunia maya
  • Pemungutan suara elektronik
  • Permainan video
  • Pengolah kata
  • Riset operasi
  • Teknologi pendidikan
  • Sistem manajemen dokumen
  • '
Diperoleh dari "https://id.wikipedia.org/w/index.php?title=Pemelajaran_pengukuhan&oldid=26955814"
Kategori:
  • Pemelajaran pengukuhan
  • Model markov
Kategori tersembunyi:
  • Halaman dengan argumen ganda di pemanggilan templat
  • Pages using the JsonConfig extension
  • Pemeliharaan CS1: Lokasi tanpa penerbit
  • CS1 sumber berbahasa Inggris (en)
  • Templat webarchive tautan wayback

Best Rank
More Recommended Articles