ABSTRAK
Suatu ramalan dapat diandalkan jika secara statistik tidak dapat dibedakan dari observasi dalam pengertian distribusional. Dalam peramalan probabilistik, keandalan merupakan kondisi yang diperlukan (tetapi tidak cukup) untuk pengambilan keputusan yang optimal. Dalam peramalan ansambel, keandalan merupakan tanda dari sistem yang dirancang dengan baik. Alat untuk menilai keandalan dalam kasus univariat ada dan telah terbukti populer. Salah satu contoh alat yang terkenal untuk peramalan ansambel adalah histogram peringkat. Meskipun peramalan probabilistik univariat secara historis merupakan yang paling umum digunakan, peramalan multivariat merupakan hal mendasar ketika beberapa variabel yang saling memengaruhi berperan dalam proses pengambilan keputusan. Kasus multivariat yang paling sederhana adalah kasus bivariat, di mana hanya dua variabel yang saling bergantung yang diramalkan. Di sini, kami membahas bagaimana menilai keandalan peramalan ansambel bivariat dapat dilakukan dengan menggunakan generalisasi alat diagnostik univariat. Kami memperkenalkan histogram peringkat 2-D, generalisasi histogram peringkat univariat yang sederhana dan tidak terbatas. Statistik ringkasan keandalan ensemble dalam ruang bivariat juga disarankan bersama dengan strategi untuk memisahkan kontribusi marginal dan ketergantungan. Interpretasi histogram peringkat 2-D diilustrasikan dengan data sintetis dan prakiraan ensemble ECMWF. Eksperimen model mainan digunakan untuk membantu mengaitkan pola histogram dengan kesalahan spesifikasi keandalan yang umum dalam lingkungan yang sepenuhnya terkontrol, sementara aplikasi pada ensemble ECMWF menunjukkan bagaimana masalah keandalan dapat didiagnosis dengan alat serbaguna ini.
1 Pendahuluan
Prakiraan multivariat melibatkan prediksi nilai masa depan dari beberapa variabel dependen secara bersamaan. Sebaliknya, prakiraan univariat hanya memprediksi nilai masa depan dari satu variabel. Prakiraan bivariat adalah kasus multivariat yang paling sederhana, di mana hanya dua variabel yang menjadi fokus pada saat yang sama. Prakiraan cuaca yang konsisten secara fisik bersifat multivariat dengan komponen dalam waktu (misalnya, selama beberapa jam atau hari berikutnya), dalam ruang (misalnya, untuk lokasi yang berbeda) dan di seluruh variabel cuaca (misalnya, angin dan curah hujan).
Saat ini, prakiraan ansambel merupakan landasan prakiraan cuaca operasional (Leutbecher dan Palmer 2008 ). Untuk mengoptimalkan pengambilan keputusan, ketidakpastian prakiraan menjadi kunci tidak hanya berkenaan dengan satu variabel pada lokasi dan tanggal tertentu, tetapi juga lintas variabel, waktu, dan ruang. Dalam kerangka kerja multivariat, kami tertarik pada distribusi probabilitas gabungan antara variabel yang ditangkap oleh prakiraan ansambel. Penilaian konsistensi statistik prakiraan multivariat merupakan kepentingan praktis dari perspektif pengguna prakiraan, tetapi juga bagi pengembang prakiraan untuk mengidentifikasi kekurangan dan jalur untuk perbaikan ‘generator prakiraan multivariat’ mereka.
Kualitas prakiraan ensemble multivariat dapat dinilai dengan bantuan skor seperti skor Dawid–Sebastiani atau skor p-variogram (Dawid dan Sebastiani 1999 ; Scheuerer dan Hamill 2015 ). Contoh lain adalah skor energi, generalisasi dari skor probabilitas peringkat kontinu. Versi tertimbang dari skor multivariat juga telah disarankan baru-baru ini (Allen et al. 2023 ). Meskipun demikian, hasil verifikasi berdasarkan skor multivariat terkadang sulit untuk ditafsirkan. Secara khusus, kontribusi univariat dan multivariat pada skor tidak mudah untuk dipisahkan. Demikian pula, penilaian terpisah dari komponen ‘keandalan’ dan ‘resolusi’ dari suatu skor tidaklah mudah. Sementara studi terbaru membahas kemampuan diskriminasi prakiraan multivariat dengan skor yang tepat (Pinson dan Tastu 2013 ; Ziel dan Berk 2019 ; Alexander et al. 2022 ), yang lain menyelidiki keandalan prakiraan, seperti yang dibahas di bawah ini. Keandalan merupakan atribut mendasar untuk optimalisasi pengambilan keputusan (misalnya, Richardson 2011 ) dan cara menilainya dalam konteks multivariat akan menjadi fokus utama naskah ini.
Alat untuk menilai keandalan prakiraan multivariat sudah ada, seperti, misalnya, histogram peringkat multivariat (Gneiting et al. 2008 ; Thorarinsdottir et al. 2016 ). Histogram peringkat multivariat didasarkan pada perhitungan pra-peringkat (Gneiting et al. 2008 ; Thorarinsdottir et al. 2016 ). Mendefinisikan pra-peringkat terdiri dari menemukan peringkat dalam ruang multivariat dengan meringkas kuantitas multivariat menjadi satu nilai. Misalnya, peringkat rata-rata menetapkan pra-peringkat berdasarkan peringkat univariat rata-rata, seperti yang diperkenalkan dalam Thorarinsdottir et al. ( 2016 ). Contoh lain adalah histogram peringkat untuk bidang spasial berdasarkan fraksi titik grid di mana ambang batas yang ditentukan terlampaui (Jacobson et al. 2020 ). Kompleksitas interpretasi histogram dalam kasus multivariat menyebabkan rekomendasi penggunaan beberapa metode pra-peringkat secara bersamaan untuk lebih memahami sifat kesalahan kalibrasi prakiraan (Wilks 2017 ). Baru-baru ini, Allen et al. ( 2024 ) menyarankan bahwa fungsi pra-peringkat dapat didefinisikan secara ad-hoc untuk menangkap beberapa aspek relevan dari prakiraan multivariat, seperti mean, varians, atau isotropi. Berikut ini, kami berpendapat bahwa langkah pra-pemrosesan yang terdiri dari mendefinisikan pra-peringkat dapat dilewati. Kontribusi kami adalah untuk merinci bagaimana hal ini dapat dilakukan.
Di sini kami mengusulkan penggunaan histogram peringkat 2-D yang diterapkan pada kasus bivariat sebagai perluasan dari histogram peringkat ansambel standar. Jika kita mempertimbangkan, misalnya, prakiraan angin dengan komponen zonal dan meridional, seseorang akan dapat menilai keandalan vektor angin dengan cara yang sama seperti keandalan masing-masing komponen individual. Berbeda dengan karya-karya sebelumnya tentang histogram peringkat multivariat, penyelidikan berlangsung langsung di ruang 2-D daripada mengandalkan transformasi ke ruang 1-D dengan bantuan pra-peringkat. Tujuannya adalah untuk mengembangkan alat untuk inspeksi visual dan penilaian struktur ketergantungan dalam prakiraan ansambel bivariat. Berikut ini, perhatian khusus diberikan pada visualisasi histogram dan interpretasinya. Studi kami juga memperkenalkan ukuran baru keandalan ansambel dengan meringkas histogram peringkat 2-D menjadi satu angka. Meskipun fokus di sini adalah pada kasus multivariat yang paling sederhana, yaitu kasus bivariat, generalisasi konsep ke lebih banyak komponen akan mudah.
Naskah ini disusun sebagai berikut: pada Bagian 2 , kami menyediakan deskripsi praktis dan teknis tentang histogram peringkat dan cara membuatnya; pada Bagian 3 , kami membahas visualisasi dan statistik ringkasannya; pada Bagian 4 , ilustrasi didasarkan pada model mainan, sedangkan pada Bagian 5 alat diterapkan pada data nyata sebelum diakhiri di Bagian 6 .
2 Histogram Peringkat
2.1 Secara skematis
Sebelum mengembangkan kerangka kerja teoritis dan praktis untuk histogram peringkat 2-D, topik ini diperkenalkan dengan tampilan skematis tentang bagaimana histogram peringkat 1-D (standar) dan 2-D dapat dibangun. Ilustrasi disediakan pada Gambar 1 dan 2 , masing-masing.


Pada Gambar 1 , kita mengingat kembali bagaimana histogram peringkat 1-D dibangun. Jika kita mempertimbangkan prakiraan ansambel dengan anggota yang mengeluarkan nilai 2, 3, 6, 7 dan 11 dan pengamatan yang mengukur 2,5 seperti yang direpresentasikan pada Gambar 1a , peringkat pengamatan adalah 2. Jadi hitungan ditambahkan ke bin ini seperti pada Gambar 1b . Mengulangi operasi ini pada sampel verifikasi, kita memperoleh histogram yang direpresentasikan di sini sebagai garis pada Gambar 1c . Histogram 1-D yang ideal adalah datar dengan penyimpangan kecil karena gangguan sampel seperti yang ditunjukkan oleh garis putus-putus.
Bahasa Indonesia : Pada Gambar 2 , kami mengilustrasikan bagaimana histogram peringkat dibangun untuk prakiraan ensemble 2-D. Untuk komponen pertama (variabel), anggota ensemble dan observasi sama seperti Gambar 1 , tetapi di sini, kami juga mempertimbangkan komponen kedua (variabel) yang anggota ensemble-nya mengambil nilai 1, 4, 5, 9 dan 12 sementara observasi mengukur 4,5, seperti yang diilustrasikan pada Gambar 2a . Peringkat observasi adalah 2 dan 3 untuk komponen pertama dan kedua, masing-masing. Bin histogram 2-D yang sesuai ditambah dengan Gambar 2b unit . Setelah mengisi histogram peringkat pada sampel verifikasi, kami memperoleh histogram 2-D seperti pada Gambar 2c .
Histogram ideal tidak diketahui secara apriori dalam kasus histogram peringkat 2-D. Memang, histogram 2-D harus mencerminkan struktur ketergantungan antara 2 komponen prakiraan. Jadi, untuk menginterpretasikan Gambar 2c , seseorang memerlukan referensi. Referensi ini bervariasi berdasarkan kasus per kasus dan dapat diperoleh dengan merepresentasikan kopula ansambel dalam bentuk histogram 2-D seperti yang dibahas di bawah ini.
2.2 Secara Teori
2.2.1 Dalam 1-D

Angka | akuaku | sebuah | sebuah | |
---|---|---|---|---|
bias | 4.2 | -0,1 | 1 | 1 |
Penyebaran kurang | 4.2 | angka 0 | 0.8 | 1 |
Kurang berkorelasi | 4.2 | angka 0 | 1 | 0.7 |



Contoh-contoh sederhana ini membantu mengaitkan pola dasar dengan fitur miskalibrasi umum. Bias dalam perkiraan menyebabkan histogram 2-D yang tidak seimbang seperti pada Gambar 4a dengan bin kanan atas menjadi jauh lebih padat daripada histogram lainnya. Kurangnya penyebaran dalam ensemble menghasilkan histogram 2-D yang terkuras di bagian tengahnya sehubungan dengan kopula ensemble seperti pada Gambar 5a di mana populasi di bin pusat lebih rendah daripada pada Gambar 5b . Dalam kedua kasus ini, distribusi marginal dipengaruhi oleh miskalibrasi tetapi bukan ketergantungan antara komponen. Dalam hal itu, kami mengamati bahwa, setelah penyesuaian, histogram peringkat 2-D pada Gambar 4c dan 5c cocok dengan kopula ensemble pada Gambar 4b dan 5b , masing-masing. Selain itu, kami memulihkan hasil standar untuk kasus univariat seperti yang ditunjukkan pada Gambar 4d dan 5d : histogram miring klasik dan berbentuk U untuk perkiraan yang bias dan underdispersif, masing-masing.
Contoh sintetis ketiga berfokus pada masalah struktur ketergantungan dalam perkiraan ansambel. Perkiraan tersebut dikalibrasi dengan sempurna dalam arti univariat. Karena alasan ini, Gambar 6a,c hampir identik karena penyesuaian tidak berdampak pada histogram 2-D yang sudah dikalibrasi dengan baik, dan histogram peringkat 1-D mendekati kerataan pada Gambar 6d . Selain itu,
-skor tidak terpengaruh oleh penyesuaian histogram dalam contoh ini karena ensembel sudah dikalibrasi dengan baik secara marginal.
Pada contoh sintetis ketiga, kelemahan struktur ketergantungan ensemble terungkap ketika membandingkan kopula ensemble pada Gambar 6b dengan histogram 2-D pada Gambar 6a,c. . Kopula ensemble tampak lebih padat di sudut kiri bawah dan kanan atas daripada histogram 2-D, yang lebih padat di sepanjang diagonal, terutama di bagian tengah. Perlu dicatat bahwa histogram peringkat 2-D dapat mengambil berbagai bentuk tergantung pada struktur kovariansi data dan sifat kalibrasi sistem peramalan. Keragaman ini sulit dipahami di sini dengan sejumlah kecil contoh.

5 Aplikasi untuk Ramalan Ensemble ECMWF
5.1 Data dan Pengaturan
Kami sekarang menerapkan konsep histogram peringkat 2-D ke ensemble run di ECMWF. Kami memilih contoh yang menangkap berbagai jenis prakiraan bivariat dengan komponen dalam ruang, waktu, atau antar variabel. Ketiga contoh tersebut adalah sebagai berikut: (1) prakiraan ketinggian geo-potensial pada 500 hPa (Z500) bergeser secara spasial dalam arah zonal, (2) prakiraan suhu pada 850 hPa (T850) pada dua lead time yang berbeda, dan (3) komponen angin, zonal dan meridional, pada 200 hPa. Untuk setiap komponen prakiraan, analisis ECMWF yang memverifikasi digunakan sebagai ‘observasi’. Jadi, misalnya, ketika prakiraan bergeser secara spasial, kami menggunakan analisis yang bergeser sebagai observasi. 3 Konfigurasi yang berbeda dilaporkan dalam Tabel 2 .
Jenis | Angka | Komponen pertama | Komponen kedua |
---|---|---|---|
Spasial | 8 | Z500 | Z500 diterjemahkan oleh 3° |
Sementara | 9 | T850 pada hari ke 5 | T850 pada hari ke 6 |
Antar variabel | 10 | U200 | V200 |
Sebagai ilustrasi, prakiraan dibandingkan dengan pengamatan pada resolusi grid spasial 1,5°. Dalam contoh kami, periode verifikasi mencakup 1 Maret hingga 31 Mei (MAM) 2024. Fokusnya adalah pada Belahan Bumi Utara yang mencakup sekitar 5700 titik grid. Ukuran ansambelnya adalah 50.
5.2 Hasil dan Pembahasan
Dalam contoh nyata pertama pada Gambar 8 , kami menilai secara visual prakiraan ensemble Z500. Prakiraan bivariat dibangun di sini dari 2 prakiraan variabel yang sama tetapi (secara zonal) berjarak 3°, dalam praktiknya oleh dua titik grid. Konsistensi statistik ensemble dengan observasi dinilai dengan membandingkan histogram peringkat 2-D pada Gambar 8a dengan copula ensemble pada Gambar 8b . Yang pertama tampak tidak seimbang terhadap yang terakhir yang menunjukkan bias dalam prakiraan seperti pada contoh sintetis pada Gambar 4. Interpretasi ini dikuatkan oleh histogram peringkat 1-D pada Gambar 8d . Dalam contoh ini, kedua komponen memiliki histogram peringkat 1-D yang sama karena keduanya sesuai dengan prakiraan yang sama yang bergeser secara spasial. Lebih jauh, histogram 2-D yang disesuaikan pada Gambar 8c cocok dengan copula ensemble pada Gambar 8b dengan
-skor mendekati 1. Hasil ini ditafsirkan sebagai berikut: ketergantungan spasial dalam ansambel terkalibrasi dengan baik untuk contoh ini.

Contoh kedua pada Gambar 9 menunjukkan hasil untuk T850 dengan fokus pada konsistensi temporal ensemble. Ramalan bivariat memang sesuai dengan dua ramalan variabel yang sama tetapi pada dua lead time yang berurutan. Pada Gambar 9a , histogram 2-D tampak berkurang di bagian tengahnya sehubungan dengan kopula ensemble, yang menunjukkan kesalahan kalibrasi sebaran ensemble yang mirip dengan contoh sintetis pada Gambar 5. Under-dispersiveness ensemble selanjutnya dikonfirmasi oleh histogram peringkat 1-D pada Gambar 9d . Yang lebih menarik, kami mencatat sedikit perbedaan antara kopula ensemble pada Gambar 9b dan histogram yang disesuaikan pada Gambar 9c : yang terakhir cenderung lebih padat di sepanjang diagonal daripada yang pertama. Didukung oleh contoh sintetis pada Gambar 6b,c , hasil ini ditafsirkan sebagai korelasi yang terlalu lemah antara anggota ensemble pada lead time yang berurutan dalam kasus tersebut.

Sebagai contoh nyata ketiga, Gambar 10a menunjukkan histogram peringkat 2-D untuk komponen prakiraan angin pada 200 hPa. Pola 2-D dari kopula ansambel pada Gambar 10b menunjukkan campuran korelasi positif dan negatif di antara anggota ansambel: semua sudut terisi cukup banyak serta bagian tengah histogram 2-D. Kita melihat pola serupa setelah penyesuaian histogram peringkat 2-D seperti yang ditunjukkan pada Gambar 10c .
-skor dalam kasus tersebut di bawah 1. Ketergantungan ensemble dalam komponen angin tampaknya terkalibrasi dengan baik. Masalah keandalan utama yang terdeteksi di sini terkait dengan bias positif dalam komponen meridional dan bias negatif dalam komponen zonal sebagaimana yang terlihat oleh histogram peringkat 1-D pada Gambar 10d .

Terakhir, pada Gambar 11 ,
-skor diplot sebagai fungsi dari waktu tunggu prakiraan untuk tiga jenis prakiraan bivariat yang dianalisis di atas. Ukuran ringkasan keandalan ansambel dihitung tidak hanya untuk histogram peringkat 2-D tetapi juga untuk versi yang disesuaikan. Penyesuaian yang meniru dampak pascaproses univariat membantu mengurangi
-skor signifikan: kontribusi utama terhadap skor berasal dari bias dan kesalahan kalibrasi sebaran ansambel. Skor keandalan mendekati 1, atau bahkan di bawah 1, dalam sebagian besar kasus setelah penyesuaian histogram seperti yang ditunjukkan pada Gambar 11a,c . Satu pengecualian penting adalah untuk prakiraan T850 pada waktu tunggu yang lebih pendek seperti yang ditunjukkan pada Gambar 11b .

6 Ringkasan dan Prospek
Alat diagnostik baru dirancang untuk memperoleh wawasan tentang kemampuan prakiraan ansambel dalam menyediakan informasi yang andal tidak hanya dalam pengertian univariat (untuk satu variabel, satu waktu tunggu, dan satu lokasi) tetapi juga dalam kerangka multivariat. Histogram peringkat 2-D merupakan generalisasi dari histogram peringkat ansambel yang populer ke situasi di mana fokusnya adalah pada dua variabel secara bersamaan, bukan hanya satu. Kasus multivariat yang paling sederhana menawarkan kerangka kerja yang menarik untuk mendekati dan menilai keandalan ansambel ensemble ketika jumlah komponen prakiraan lebih besar dari satu.
Dalam kasus univariat, histogram peringkat untuk prakiraan yang andal diharapkan datar. Dalam kasus bivariat, bentuk histogram 2-D untuk prakiraan yang andal tidak diketahui sebelumnya, tetapi harus sesuai dengan struktur ketergantungan antara dua komponen prakiraan ansambel. Bentuk ini berbeda-beda pada setiap kasus. Karena alasan ini, histogram peringkat 2-D perlu dibandingkan dengan estimasi kopula ansambel, yang merepresentasikan struktur ketergantungan ini. Estimasi kopula ansambel didasarkan pada pendekatan keluarkan satu anggota, di mana anggota yang keluar digunakan sebagai pengamatan semu untuk membangun histogram referensi.
Inspeksi visual histogram peringkat 2-D dan perbandingannya dengan kopula ansambel yang sesuai membantu mengidentifikasi masalah miskalibrasi dalam prakiraan ansambel. Pertama, kami menghasilkan kumpulan data sintetis dan mengaitkan pola 2-D dengan prakiraan patologis umum seperti prakiraan yang bias, kurangnya sebaran ansambel, atau korelasi yang terlalu lemah antara komponen ansambel. Pola serupa kemudian mudah ditafsirkan saat diamati dalam histogram peringkat 2-D yang berasal dari data nyata. Dalam studi kami, kami mendiagnosis prakiraan ansambel ECMWF untuk berbagai variabel dan pengaturan. Selain bias yang diharapkan dan masalah underdispersiveness, kami juga menemukan bahwa ansambel menunjukkan keandalan yang baik dalam hal struktur ketergantungan, kecuali antara prakiraan T850 yang berurutan pada waktu tunggu yang lebih pendek.

Selain itu, kami memperkenalkan statistik ringkasan histogram peringkat 2-D,
-skor, yang menyediakan cara untuk mengukur keandalan ansambel dalam ruang multivariat.
-skor yang dirumuskan dalam makalah ini terinspirasi oleh skor serupa untuk histogram peringkat 1-D. Kami juga menyarankan penggunaan algoritma transportasi optimal untuk menyesuaikan histogram peringkat 2-D guna ‘secara virtual’ mengoreksi ensembel untuk kesalahan kalibrasi univariat sistematis. Penyesuaian histogram adalah cara untuk mengurai berbagai sumber kesalahan kalibrasi dan berfokus pada struktur ketergantungan dalam ensembel.
Histogram peringkat muncul sebagai alat serbaguna yang dapat dengan mudah diterapkan pada prakiraan ansambel bivariat. Pada prinsipnya, konsep histogram peringkat dapat digeneralisasi ke lebih dari dua komponen. Visualisasi histogram tersebut secara efektif akan menjadi tantangan untuk sejumlah komponen prakiraan yang lebih besar dari 2 atau 3. Namun,
-skor akan tetap menjadi cara sederhana untuk menilai keandalan himpunan dalam ruang multivariat yang ditentukan. Langkah agregasi histogram yang menggabungkan kategori histogram yang berdekatan untuk meningkatkan ketahanan (dan mengurangi gangguan) akan menjadi lebih penting dalam kasus tersebut. Jumlah kategori histogram yang optimal dan, secara umum, pengujian statistik histogram peringkat 2-D diserahkan untuk pekerjaan selanjutnya.