Tuesday 15 August 2017

Moving average residuals


Pemulusan smoothing eksponensial pengamatan masa lalu dengan bobot yang menurun secara eksponensial untuk meramalkan nilai masa depan Skema pemulusan ini dimulai dengan pengaturan (S2) sampai (y1), di mana (Si) adalah singkatan dari pengamatan merapikan atau EWMA, dan (y) merupakan singkatan dari observasi asli. Subskrip mengacu pada periode waktu, (1, 2,, ldot,, n). Untuk periode ketiga, (S3 alpha y2 (1-alpha) S2) dan seterusnya. Tidak ada (S1) seri smoothing dimulai dengan versi smoothed dari observasi kedua. Untuk setiap periode waktu (t), nilai smoothed (St) ditemukan dengan menghitung St alpha y (1-alpha) S ,,,,,,, 0 Persamaan yang diperluas untuk (S5) Sebagai contoh, persamaan yang diperluas untuk merapikan Nilai (S5) adalah: S5 alpha left (1-alpha) 0 y (1-alpha) 1 y (1-alpha) 2 y right (1-alpha) 3 S2. Mengilustrasikan perilaku eksponensial Ini menggambarkan perilaku eksponensial. Bobot, (alpha (1-alpha) t) menurun secara geometris, dan jumlahnya adalah kesatuan seperti yang ditunjukkan di bawah ini, dengan menggunakan properti seri geometris: alpha sum (1-alpha) i alpha left frac right 1 - (1-alpha) T. Dari rumus terakhir kita dapat melihat bahwa istilah penjumlahan menunjukkan bahwa kontribusi terhadap nilai smoothed (St) menjadi kurang pada setiap periode waktu berturut-turut. Contoh untuk (alpha 0.3) Misalkan (alpha 0.3). Amati bahwa bobot (alpha (1-alpha) t) menurun secara eksponensial (secara geometris) seiring waktu. Jumlah kesalahan kuadrat (SSE) 208.94. Mean dari kesalahan kuadrat (MSE) adalah SSE 11 19.0. Hitung untuk nilai yang berbeda (alpha) The MSE dihitung lagi untuk (alpha 0.5) dan ternyata adalah 16,29, jadi dalam kasus ini kita lebih memilih sebuah (alpha) dari 0.5. Bisakah kita berbuat lebih baik Kita bisa menerapkan metode trial-and-error yang telah terbukti. Ini adalah prosedur iteratif yang dimulai dengan kisaran (alpha) antara 0,1 dan 0,9. Kami menentukan pilihan awal terbaik untuk (alpha) dan kemudian mencari antara (alpha - Delta) dan (alpha Delta). Kita bisa mengulangi ini mungkin sekali lagi untuk menemukan yang terbaik (alpha) sampai 3 tempat desimal. Pengoptimalan nonlinier dapat digunakan Tapi ada metode pencarian yang lebih baik, seperti prosedur Marquardt. Ini adalah pengoptimal nonlinier yang meminimalkan jumlah kuadrat residu. Secara umum, program perangkat lunak statistik yang paling tepat dirancang harus dapat menemukan nilai (alpha) yang meminimalkan MSE. Contoh plot yang menunjukkan data smoothed untuk 2 nilai (alpha) Excel Untuk Analisis Data Statistik Ini adalah situs pendamping webtext dari Business Statistics USA Site Para mis visitantes del mundo de habla hispana, este sitio se encuentra disponible en espaol en: Sitio Espejo para Amrica Latina Sitio de los EEUU Excel adalah paket statistik yang banyak digunakan, yang berfungsi sebagai alat untuk memahami konsep statistik dan perhitungan untuk memeriksa perhitungan pekerjaan tangan Anda dalam memecahkan masalah pekerjaan rumah Anda. Situs ini menyediakan pengantar untuk memahami dasar-dasar dan bekerja dengan Excel. Mengulangi contoh numerik bergambar di situs ini akan membantu meningkatkan keakraban Anda dan sebagai hasilnya meningkatkan efektivitas dan efisiensi proses Anda dalam statistik. Untuk mencari situs. Coba E dit F ind di halaman Ctrl f. Masukkan kata atau frasa di kotak dialog, mis. Quot variansquot atau quot meanquot Jika tampilan pertama dari kata kunci bukan apa yang Anda cari, cobalah F ind Next. Pendahuluan Situs ini memberikan pengalaman ilustrasi dalam penggunaan Excel untuk ringkasan data, presentasi, dan untuk analisis statistik dasar lainnya. Saya percaya penggunaan Excel yang populer ada di area di mana Excel benar-benar bisa unggul. Ini termasuk mengatur data, yaitu pengelolaan data dasar, tabulasi dan grafik. Untuk analisis statistik sesungguhnya harus belajar menggunakan paket statistik komersial profesional seperti SAS, dan SPSS. Microsoft Excel 2000 (versi 9) menyediakan seperangkat alat analisis data yang disebut Analysis ToolPak yang dapat Anda gunakan untuk menyimpan langkah-langkah saat Anda mengembangkan analisis statistik yang kompleks. Anda menyediakan data dan parameter untuk setiap analisis alat ini menggunakan fungsi makro statistik yang sesuai dan kemudian menampilkan hasilnya dalam tabel output. Beberapa alat menghasilkan grafik selain tabel output. Jika perintah Analisis Data dapat dipilih pada menu Tools, maka Analysis ToolPak terinstal di sistem anda. Namun, jika perintah Analisis Data tidak ada pada menu Tools, Anda perlu menginstal Analysis ToolPak dengan melakukan hal berikut: Langkah 1: Pada menu Tools, klik Add-Ins. Jika Analisis ToolPak tidak tercantum dalam kotak dialog Add-Ins, klik Browse dan cari nama drive, folder, dan nama file untuk Analysis ToolPak Add-in Analys32.xll biasanya terletak di folder FilesMicrosoft OfficeOfficeLibraryAnalisis Program. Setelah Anda menemukan file tersebut, pilih dan klik OK. Langkah 2: Jika Anda tidak menemukan file Analys32.xll, maka Anda harus menginstalnya. Masukkan Disk Microsoft Office 2000 1 ke dalam drive CD ROM. Pilih Run dari menu Start Windows. Jelajahi dan pilih drive untuk CD Anda. Pilih Setup. exe, klik Open, dan klik OK. Klik tombol Add or Remove Features. Klik next ke Microsoft Excel untuk Windows. Klik next to Add-ins. Klik panah bawah di samping Analysis ToolPak. Pilih Run dari My Computer. Pilih tombol Update Now. Excel sekarang akan memperbarui sistem Anda untuk menyertakan Analysis ToolPak. Luncurkan Excel. Pada menu Tools, klik Add-Ins. - dan pilih kotak centang Analysis ToolPak. Langkah 3: Alat Analisis Add-In sekarang terinstal dan Analisis Data. Sekarang akan dipilih pada menu Tools. Microsoft Excel adalah paket spreadsheet yang kuat yang tersedia untuk Microsoft Windows dan Apple Macintosh. Perangkat lunak Spreadsheet digunakan untuk menyimpan informasi dalam kolom dan baris yang kemudian dapat diatur dan diproses. Spreadsheets dirancang untuk bekerja dengan baik dengan angka tapi sering menyertakan teks. Excel mengatur pekerjaan Anda ke dalam buku kerja setiap buku kerja dapat berisi banyak lembar kerja lembar kerja yang digunakan untuk membuat daftar dan menganalisis data. Excel tersedia di semua PC akses publik (yaitu, di Lab Perpustakaan dan PC). Ini bisa dibuka baik dengan memilih Start - Programs - Microsoft Excel atau dengan mengklik pada Excel Short Cut yang ada di desktop Anda, atau pada PC manapun, atau pada toolbar Office Tool. Membuka Dokumen: Klik File-Open (CtrlO) untuk membuka kembali buku kerja yang ada untuk mengubah area direktori atau drive untuk mencari file di lokasi lain Untuk membuat workbook baru, klik File-New-Blank Document. Menyimpan dan Menutup Dokumen: Untuk menyimpan dokumen Anda dengan nama file, lokasi dan format filenya saat ini, klik File - Save. Jika Anda menabung untuk pertama kalinya, klik File-Save choosetype nama untuk dokumen Anda lalu klik OK. Juga gunakan File-Save jika Anda ingin menyimpan ke filenamelocation yang berbeda. Setelah selesai mengerjakan dokumen, Anda harus menutupnya. Buka menu File dan klik Close. Jika Anda telah membuat perubahan sejak file terakhir disimpan, Anda akan ditanya apakah Anda ingin menyimpannya. Layar Excel Workbook dan lembar kerja: Saat Anda memulai Excel, lembar kerja kosong ditampilkan yang terdiri dari beberapa grid sel dengan baris bernomor di halaman dan kolom dengan judul berdasarkan abjad di seluruh halaman. Setiap sel direferensikan oleh koordinatnya (misalnya A3 digunakan untuk merujuk ke sel di kolom A dan baris 3 B10: B20 digunakan untuk merujuk pada kisaran sel pada kolom B dan baris 10 sampai 20). Pekerjaan Anda disimpan dalam file Excel yang disebut workbook. Setiap buku kerja mungkin berisi beberapa lembar kerja dan grafik - lembar kerja saat ini disebut lembar aktif. Untuk melihat lembar kerja yang berbeda dalam buku kerja, klik Lembar Lembar yang sesuai. Anda dapat mengakses dan menjalankan perintah langsung dari menu utama atau Anda dapat menunjuk ke salah satu tombol toolbar (kotak tampilan yang muncul di bawah tombol, saat Anda meletakkan kursor di atasnya, menunjukkan nama tombol) dan klik sekali. Bergerak di Sekitar Lembar Kerja: Penting untuk dapat bergerak di sekitar lembar kerja secara efektif karena Anda hanya dapat memasukkan atau mengubah data pada posisi kursor. Anda dapat memindahkan kursor dengan menggunakan tombol panah atau dengan mengarahkan mouse ke sel yang diperlukan dan mengkliknya. Setelah dipilih sel menjadi sel aktif dan dikenali oleh batas tebal hanya satu sel yang bisa aktif sekaligus. Untuk berpindah dari satu lembar kerja ke lembar kerja lainnya, klik tab lembar. (Jika buku kerja Anda berisi banyak lembar, klik kanan tombol gulir tab lalu klik lembar yang Anda inginkan.) Nama lembar aktif ditampilkan dalam huruf tebal. Bergerak Antara Sel: Berikut adalah cara pintas keyboard untuk memindahkan sel aktif: Rumah - bergerak ke kolom pertama di baris saat ini CtrlHome - bergerak ke sudut kiri atas dokumen Akhirilah Home - pindah ke sel terakhir dalam dokumen To Bergerak di antara sel pada lembar kerja, klik sel atau gunakan tombol panah. Untuk melihat area sheet yang berbeda, gunakan scroll bar dan klik pada tanda panah atau area di bawah kotak gulir di scroll bar vertikal atau horizontal. Perhatikan bahwa ukuran kotak gulir menunjukkan jumlah proporsional area yang digunakan dari lembar yang terlihat di jendela. Posisi kotak gulir menunjukkan lokasi relatif area yang terlihat dalam lembar kerja. Memasukkan Data Lembar kerja baru adalah kotak baris dan kolom. Baris diberi label dengan angka, dan kolom diberi label dengan huruf. Setiap persimpangan berturut-turut dan kolom adalah sel. Setiap sel memiliki alamat. Yaitu kolom huruf dan nomor baris. Panah pada lembar kerja ke kanan menunjuk ke sel A1, yang saat ini disorot. Menunjukkan bahwa itu adalah sel aktif. Sel harus aktif memasukkan informasi ke dalamnya. Untuk menyorot (pilih) sel, klik di atasnya. Untuk memilih lebih dari satu sel: Klik sel (misalnya A1), lalu tahan tombol shift saat Anda mengklik yang lain (misalnya D4) untuk memilih semua sel antara dan termasuk A1 dan D4. Klik pada sel (misalnya A1) dan seret mouse ke kisaran yang diinginkan, lepaskan pada sel lain (misalnya D4) untuk memilih semua sel antara dan termasuk A1 dan D4. Untuk memilih beberapa sel yang tidak bersebelahan, tekan kontrol dan klik Sel yang ingin Anda pilih. Klik nomor atau huruf yang melabeli baris atau kolom untuk memilih keseluruhan baris atau kolom. Satu lembar kerja bisa memiliki hingga 256 kolom dan 65.536 baris, jadi akan lama sebelum Anda kehabisan ruang. Setiap sel bisa mengandung label. Nilai. Nilai logis Atau formula. Label dapat berisi kombinasi huruf, angka, atau simbol. Nilai adalah angka. Hanya nilai (angka) yang bisa digunakan dalam perhitungan. Nilai juga bisa berupa tanggal atau nilai timeLogical benar atau salah. Formulas secara otomatis melakukan perhitungan terhadap nilai pada sel tertentu lainnya dan menampilkan hasilnya di sel tempat formula dimasukkan (misalnya, Anda dapat menentukan sel D3 itu Adalah berisi jumlah angka di B3 dan C3 nomor yang ditampilkan di D3 kemudian akan menjadi funtion dari angka yang masuk ke B3 dan C3). Untuk memasukkan informasi ke dalam sel, pilih sel dan mulai mengetik. Perhatikan bahwa saat Anda mengetik informasi ke dalam sel, informasi yang Anda masukkan juga ditampilkan di formula bar. Anda juga bisa memasukkan informasi ke dalam formula bar, dan informasinya akan muncul di sel yang dipilih. Bila Anda telah selesai memasukkan label atau nilai: Tekan Enter untuk pindah ke sel berikutnya di bawah ini (dalam kasus ini, A2) Tekan Tab untuk berpindah ke sel berikutnya ke kanan (dalam kasus ini, B1) Klik sel untuk memilih Itu Memasuki Label Kecuali informasi yang Anda masukkan diformat sebagai nilai atau formula, Excel akan menafsirkannya sebagai label, dan default menyelaraskan teks di sisi kiri sel. Jika Anda membuat lembar kerja yang panjang dan Anda akan mengulangi informasi label yang sama di banyak sel yang berbeda, Anda dapat menggunakan fungsi AutoComplete. Fungsi ini akan melihat entri lain di kolom yang sama dan mencoba mencocokkan entri sebelumnya dengan entri Anda saat ini. Misalnya, jika Anda sudah mengetikkan Wesleyan di sel lain dan Anda mengetik W di sel baru, Excel secara otomatis akan masuk Wesleyan. Jika Anda ingin mengetikkan Wesleyan ke dalam sel, tugas Anda selesai, dan Anda dapat beralih ke sel berikutnya. Jika Anda ingin mengetikkan sesuatu yang lain, mis. Williams, masuk ke sel, terus mengetik untuk masuk istilah. Untuk mengaktifkan funtion AutoComplete, klik Tools pada menu bar, lalu pilih Options, lalu pilih Edit, dan klik untuk meletakkan tanda centang di kotak di samping Enable AutoComplete untuk nilai sel. Cara lain untuk cepat memasukkan label berulang adalah dengan menggunakan fitur Pick List. Klik kanan pada sel, lalu pilih Pick From List. Ini akan memberi Anda daftar semua entri lainnya di sel di kolom itu. Klik pada item di menu untuk memasukkannya ke sel yang sekarang dipilih. Nilai adalah angka, tanggal, atau waktu, ditambah beberapa simbol jika perlu untuk menentukan angka lebih jauh seperti. - () 93. Angka diasumsikan positif untuk memasukkan angka negatif, gunakan tanda minus - atau lampirkan nomor dalam tanda kurung (). Tanggal disimpan sebagai MMDDYYYY, namun Anda tidak perlu memasukkannya persis dalam format itu. Jika Anda memasukkan jan 9 atau jan-9, Excel akan mengetahuinya pada tanggal 9 Januari tahun ini, dan menyimpannya pada 192002. Masukkan tahun empat digit selama satu tahun selain tahun berjalan (misalnya jan 9, 1999). Untuk memasukkan tanggal hari ini, tekan kontrol dan pada saat bersamaan. Kali default menjadi 24 jam. Gunakan a atau p untuk menunjukkan am atau pm jika Anda menggunakan jam 12 jam (mis. 8:30 p ditafsirkan pukul 20.30). Untuk memasukkan waktu saat ini, tekan kontrol dan: (shift-titik koma) pada saat bersamaan. Entri yang diartikan sebagai nilai (angka, tanggal, atau waktu) diselaraskan ke sisi kanan sel, untuk memformat ulang sebuah nilai. Angka Pembulatan yang Memenuhi Kriteria Tertentu: Untuk menerapkan warna ke nilai maksimum dan minimum: Pilih sel di wilayah ini, dan tekan CtrlShift (pada Excel 2003, tekan ini atau CtrlA) untuk memilih Current Region. Dari menu Format, pilih Conditional Formatting. Dalam Kondisi 1, pilih Formula Is, dan ketik MAX (F: F) F1. Klik Format, pilih Font tab, pilih warna, dan kemudian klik Oke. Dalam Kondisi 2, pilih Formula Is, dan ketik MIN (F: F) F1. Ulangi langkah 4, pilih warna yang berbeda dari yang Anda pilih untuk Kondisi 1, lalu klik OK. Catatan: Pastikan untuk membedakan antara referensi absolut dan referensi relatif saat memasukkan rumus. Angka Pengambilan yang Memenuhi Kriteria Spesifik Masalah: Membulatkan semua angka di kolom A ke angka nol, kecuali yang ada di desimal pertama. Solusi: Gunakan fungsi IF, MOD, dan ROUND dalam rumus berikut: IF (MOD (A2,1) 0,5, A2, ROUND (A2,0)) Untuk Menyalin dan Memaste Semua Sel dalam Lembar Pilih sel di lembar Dengan menekan CtrlA (di Excel 2003, pilih sel di area kosong sebelum menekan CtrlA, atau dari sel yang dipilih dalam rentang Current RegionList, tekan CtrlAA). ATAU Klik Pilih Semua di persimpangan kiri atas baris dan kolom. Tekan CtrlC. Tekan CtrlPage Down untuk memilih sheet lain, lalu pilih sel A1. Tekan enter. Untuk Menyalin Keseluruhan Lembar Menyalin seluruh lembar berarti menyalin sel, parameter pengaturan halaman, dan Nama-nama rentang yang ditentukan. Opsi 1: Gerakkan penunjuk mouse ke tab lembar. Tekan Ctrl, dan tahan mouse untuk menyeret lembar ke lokasi lain. Lepaskan tombol mouse dan tombol Ctrl. Opsi 2: Klik kanan tab sheet yang sesuai. Dari menu jalan pintas, pilih Pindah atau Salin. Kotak dialog Move atau Copy memungkinkan seseorang untuk menyalin lembaran itu ke lokasi yang berbeda dalam buku kerja saat ini atau ke buku kerja yang berbeda. Pastikan untuk menandai kotak centang Create a copy. Opsi 3: Dari menu Window, pilih Arrange. Pilih Tiled to tile all open workbooks di jendela. Gunakan Opsi 1 (menyeret lembar sambil menekan Ctrl) untuk menyalin atau memindahkan lembaran. Sortasi menurut Kolom Pengaturan default untuk sortir dalam urutan Ascending atau Descending adalah dengan baris. Untuk mengurutkan berdasarkan kolom: Dari menu Data, pilih Sortir, lalu pilih. Pilih tombol pilihan Sortir ke kanan dan klik OK. Di dalam Sort by option dari kotak dialog Sort, pilih nomor baris dimana kolom akan diurutkan dan klik OK. Statistik Deskriptif Alat Analisis DataPak memiliki alat Statistik Deskriptif yang memberi Anda cara mudah untuk menghitung statistik ringkasan untuk sekumpulan data sampel. Ringkasan statistik meliputi Mean, Standard Error, Median, Mode, Standard Deviation, Variance, Kurtosis, Skewness, Range, Minimum, Maximum, Sum, and Count. Alat ini menghilangkan kebutuhan untuk mengetikkan fungsi indivividual untuk menemukan masing-masing hasil ini. Excel menyertakan bilah alat yang rumit dan dapat disesuaikan, misalnya bilah alat standar yang ditunjukkan di sini: Beberapa ikon berguna untuk perhitungan matematis: adalah ikon Autosum, yang memasukkan jumlah rumus () untuk menambahkan rentang sel. Adalah ikon FunctionWizard, yang memberi Anda akses ke semua fungsi yang tersedia. Adalah ikon GraphWizard, memberikan akses ke semua jenis grafik yang tersedia, seperti yang ditunjukkan pada tampilan ini: Excel dapat digunakan untuk menghasilkan ukuran lokasi dan variabilitas variabel. Misalkan kita ingin menemukan statistik deskriptif untuk data sampel: 2, 4, 6, dan 8. Langkah 1. Pilih menu pull-down Tools, jika Anda melihat analisis data, klik opsi ini, jika tidak, klik add-in . Pilihan untuk menginstal alat analisis pak. Langkah 2. Klik pada pilihan analisis data. Langkah 3. Pilih Deskriptif Statistik dari Daftar Alat Analisis. Langkah 4. Saat kotak dialog muncul: Masukkan A1: A4 di kotak input range, A1 adalah nilai pada kolom A dan baris 1. Dalam hal ini nilai ini adalah 2. Menggunakan teknik yang sama masukkan NILAI lain sampai Anda mencapai yang terakhir. Jika sampel terdiri dari 20 nomor, Anda dapat memilih misalnya A1, A2, A3, dan lain-lain sebagai kisaran masukan. Langkah 5. Pilih rentang output. Dalam hal ini B1. Klik ringkasan statistik untuk melihat hasilnya. Bila Anda klik OK. Anda akan melihat hasilnya di kisaran yang dipilih. Seperti yang akan Anda lihat, rata-rata sampel adalah 5, mediannya adalah 5, standar deviasi adalah 2.581989, varians sampelnya adalah 6.666667, kisarannya adalah 6 dan seterusnya. Masing-masing faktor ini mungkin penting dalam perhitungan prosedur statistik yang berbeda. Distribusi Normal Pertimbangkan masalah untuk menemukan probabilitas mendapatkan nilai lebih dari suatu nilai tertentu di bawah distribusi probabilitas normal. Sebagai contoh ilustratif, mari kita anggap nilai SAT nasional secara normal didistribusikan dengan rata-rata dan standar deviasi 500 dan 100. Jawablah pertanyaan berikut berdasarkan informasi yang diberikan: A: Berapakah probabilitas skor siswa yang dipilih secara acak akan kurang dari 600 poin B: Berapakah probabilitas skor siswa yang dipilih secara acak akan melebihi 600 poin C: Berapakah probabilitasnya Bahwa nilai siswa yang dipilih secara acak antara 400 dan 600 Petunjuk: Dengan menggunakan Excel Anda dapat menemukan probabilitas mendapatkan nilai kira-kira kurang dari atau sama dengan nilai tertentu. Dalam masalah, bila mean dan standar deviasi populasi diberikan, Anda harus menggunakan akal sehat untuk menemukan probabilitas yang berbeda berdasarkan pertanyaan karena Anda tahu area di bawah kurva normal adalah 1. Pada lembar kerja, pilih Sel dimana Anda ingin jawaban muncul. Misalkan, Anda memilih nomor satu, A1. Dari menu, pilih quotinsert pull-downquot. Langkah 2-3 Dari menu, pilih insert, lalu klik pada Function. Langkah 4. Setelah mengklik pilihan Function, dialog Paste Function muncul dari Function Category. Pilih Statistical lalu NORMDIST dari kotak Function Name Klik OK Langkah 5. Setelah mengklik OK, kotak distribusi NORMDIST akan muncul: i. Masukkan 600 di X (kotak nilai) ii. Masukkan 500 di kotak Mean iii. Masukkan 100 di kotak deviasi Standar iv. Ketik quottruequot di kotak kumulatif, lalu klik OK. Seperti yang Anda lihat, nilai 0.84134474 muncul di A1, menunjukkan probabilitas bahwa skor siswa yang dipilih secara acak di bawah 600 poin. Dengan menggunakan akal sehat, kita bisa menjawab kuququot bagian dengan mengurangkan 0.84134474 dari 1. Jadi jawaban kuom kuadrat adalah 1- 0.8413474 atau 0.158653. Ini adalah probabilitas bahwa skor siswa yang dipilih secara acak lebih besar dari 600 poin. Untuk menjawab bagian kuotot, gunakan teknik yang sama untuk menemukan probabilitas atau area di sisi kiri nilai 600 dan 400. Karena area atau probabilitas ini saling tumpang tindih untuk menjawab pertanyaan, Anda harus mengurangi probabilitas yang lebih kecil dari probabilitas yang lebih besar. Jawabannya sama dengan 0.84134474 - 0.15865526 ​​yaitu, 0.68269. Screen shot seharusnya terlihat seperti berikut: Menghitung nilai variabel acak yang sering disebut nilai quotxquot Anda dapat menggunakan NORMINV dari kotak fungsi untuk menghitung nilai variabel acak - jika probabilitas ke sisi kiri variabel ini diberikan. Sebenarnya, Anda harus menggunakan fungsi ini untuk menghitung persentil yang berbeda. Dalam masalah ini orang bisa bertanya berapa skor seorang siswa yang persentilnya 90 Ini berarti kira-kira 90 nilai siswa kurang dari angka ini. Di sisi lain jika kita diminta untuk melakukan masalah ini dengan tangan, kita harus menghitung nilai x dengan menggunakan rumus distribusi normal x m zd. Sekarang mari kita gunakan Excel untuk menghitung P90. Pada fungsi Paste, klik dialog statistik, lalu klik NORMINV. Tangkapan layar akan terlihat seperti berikut: Bila Anda melihat NORMINV kotak dialog muncul. saya. Masukkan 0,90 untuk probabilitas (ini berarti bahwa kira-kira 90 nilai siswa kurang dari nilai yang kita cari) ii. Masukkan 500 untuk mean (ini adalah mean dari distribusi normal dalam kasus kami) iii. Masukkan 100 untuk standar deviasi (ini adalah standar deviasi dari distribusi normal dalam kasus kami) Pada akhir layar ini Anda akan melihat hasil rumus yang kira-kira 628 poin. Ini berarti 10 besar siswa mendapat nilai lebih baik dari 628. Interval Keyakinan untuk Mean Misalkan kita mengharapkan perkiraan interval kepercayaan untuk mean populasi. Bergantung pada ukuran ukuran sampel Anda, Anda dapat menggunakan salah satu dari kasus berikut: Ukuran Sample Besar (n lebih besar dari, misal 30): Rumus umum untuk mengembangkan interval kepercayaan untuk mean populasi adalah: Dalam rumus ini adalah mean Dari sampel Z adalah koefisien interval, yang dapat ditemukan dari tabel distribusi normal (misalnya koefisien interval untuk tingkat kepercayaan 95 adalah 1,96). S adalah standar deviasi sampel dan n adalah ukuran sampel. Sekarang kami ingin menunjukkan bagaimana Excel digunakan untuk mengembangkan interval keyakinan tertentu dari mean populasi berdasarkan informasi sampel. Seperti yang Anda lihat untuk mengevaluasi formula ini, Anda memerlukan quotthe mean dari samplequot dan margin of error Excel secara otomatis akan menghitung jumlah ini untuk Anda. Satu-satunya hal yang harus Anda lakukan adalah: tambahkan margin kesalahan ke mean sampel, Temukan batas atas interval dan kurangi margin of error dari mean ke batas bawah interval. Untuk menunjukkan bagaimana Excel menemukan jumlah ini, kami akan menggunakan kumpulan data, yang berisi pendapatan per jam dari 36 siswa belajar di sini, di University of Baltimore. Angka-angka ini muncul di sel A1 sampai A36 pada lembar kerja Excel. Setelah memasukkan data, kami mengikuti prosedur statistik deskriptif untuk menghitung jumlah yang tidak diketahui. Satu-satunya langkah tambahan adalah klik pada interval kepercayaan dalam kotak dialog statistik deskriptif dan masukkan tingkat kepercayaan yang diberikan, dalam hal ini 95. Inilah prosedur di atas pada langkah demi langkah: Langkah 1. Masukkan data di sel A1 Ke A36 (di spreadsheet) Langkah 2. Dari menu pilih Tools Langkah 3. Klik Data Analysis lalu pilih pilihan Deskriptif Statistics lalu klik OK. Pada dialog statistik deskriptif, klik pada Statistik Ringkas. Setelah Anda selesai melakukannya, klik pada tingkat interval kepercayaan dan tipe 95 - atau pada masalah lain, tingkat kepercayaan diri yang Anda inginkan. Dalam kotak Output Range masukkan B1 atau lokasi apa yang Anda inginkan. Sekarang klik OK. Tangkapan layar akan terlihat seperti berikut: Seperti yang Anda lihat, spreadsheet menunjukkan bahwa rata-rata sampel adalah 6.902777778 dan nilai absolut dari margin error 0.231678109. Maksudnya berdasarkan informasi sampel ini. Interval kepercayaan 95 untuk pendapatan per jam siswa belajar di UB memiliki batas atas 6.902777778 0.231678109 dan batas bawah 6.902777778 - 0.231678109. Di sisi lain, kita dapat mengatakan bahwa dari semua interval yang terbentuk dengan cara ini 95 mengandung rata-rata populasi. Atau, untuk tujuan praktis, kita dapat yakin bahwa rata-rata populasi adalah antara 6.902777778 - 0.231678109 dan 6.902777778 0.231678109. Paling tidak 95 yakin bahwa interval 6,68 dan 7,11 mengandung rata-rata penghasilan per jam seorang siswa belajar kerja. Ukuran Sampel Smal (katakanlah kurang dari 30) Jika sampel n kurang dari 30 atau kita harus menggunakan prosedur sampel kecil untuk mengembangkan interval kepercayaan untuk mean populasi. Rumus umum untuk mengembangkan interval kepercayaan untuk mean populasi berdasarkan sampel kecil adalah: Dalam rumus ini adalah mean sampel. Adalah koefisien interval yang menyediakan area di ekor bagian atas distribusi t dengan n-1 derajat kebebasan yang dapat ditemukan dari tabel distribusi t (misalnya koefisien interval untuk tingkat kepercayaan 90 adalah 1,833 jika sampelnya 10). S adalah standar deviasi sampel dan n adalah ukuran sampel. Sekarang Anda ingin melihat bagaimana Excel digunakan untuk mengembangkan interval kepercayaan tertentu dari mean populasi berdasarkan informasi sampel kecil ini. Seperti yang Anda lihat, untuk mengevaluasi formula ini, Anda memerlukan quellehe mean dari samplequot dan margin of error Excel secara otomatis akan menghitung jumlah ini seperti yang terjadi pada sampel besar. Sekali lagi, satu-satunya hal yang harus Anda lakukan adalah: tambahkan margin kesalahan ke rata-rata sampel,, temukan batas atas interval dan kurangi margin error dari mean untuk menemukan batas bawah interval. Untuk menunjukkan bagaimana Excel menemukan jumlah ini, kami akan menggunakan kumpulan data, yang berisi pendapatan per jam dari 10 siswa belajar kerja di sini, di University of Baltimore. Angka-angka ini muncul di sel A1 sampai A10 pada lembar kerja Excel. Setelah memasukkan data, kita mengikuti prosedur statistik deskriptif untuk menghitung jumlah yang tidak diketahui (persis seperti jumlah yang ditemukan untuk sampel besar). Di sini Anda dengan prosedur dalam bentuk langkah-demi-langkah: Langkah 1. Masukkan data di sel A1 ke A10 di spreadsheet Langkah 2. Dari menu pilih Tools Langkah 3. Klik Analisis Data lalu pilih pilihan Deskriptif Statistik. Klik OK pada dialog statistik deskriptif, klik pada Statistik Ringkas, klik pada tingkat interval kepercayaan dan ketik 90 atau pada masalah lain di mana interval kepercayaan yang Anda inginkan. Dalam kotak Output Range, masukkan B1 atau apapun lokasi yang Anda inginkan. Sekarang klik OK. Tangkapan layar akan terlihat seperti berikut: Sekarang, seperti perhitungan interval kepercayaan untuk sampel besar, hitung interval kepercayaan populasi berdasarkan informasi sampel kecil ini. Interval kepercayaan adalah: 6.8 0.414426102 atau 6.39 7.21. Kita setidaknya bisa sedikit percaya bahwa interval 6,39 dan 7,21 mengandung mean sebenarnya dari populasi. Uji Hipotesis Mengenai Rata-rata Populasi Sekali lagi, kita harus membedakan dua kasus dengan ukuran sampel Contoh Ukuran Sampel Besar (katakanlah, lebih dari 30): Pada bagian ini Anda ingin mengetahui bagaimana Excel dapat digunakan untuk melakukan tes hipotesis tentang Rata-rata populasi. Kami akan menggunakan penghasilan per jam dari siswa studi kerja yang berbeda daripada yang diperkenalkan sebelumnya di bagian interval keyakinan. Data dimasukkan dalam sel A1 ke A36. Tujuannya adalah untuk menguji hipotesis Null dan Alternative berikut ini: Hipotesis nol menunjukkan bahwa rata-rata pendapatan per jam siswa belajar kerja sama dengan 7 per jam. Hipotesis alternatif menunjukkan bahwa rata-rata pendapatan per jam tidak sama dengan 7 per jam. Saya akan mengulangi langkah-langkah yang diambil dalam statistik deskriptif dan pada akhirnya akan menunjukkan bagaimana menemukan nilai statistik uji dalam kasus ini, z, dengan menggunakan formula sel. Langkah 1. Masukkan data di sel A1 ke A36 (di spreadsheet) Langkah 2. Dari menu pilih Tools Langkah 3. Klik Data Analysis lalu pilih pilihan Deskriptif Statistik, klik OK. Pada dialog statistik deskriptif, klik pada Statistik Ringkas. Pilih kotak Output Range, masukkan B1 atau lokasi manapun yang Anda inginkan. Sekarang klik OK. (Untuk menghitung nilai statistik uji pencarian rata-rata sampel maka kesalahan standarnya. Dalam output ini, nilai ini ada di sel C3 dan C4.) Langkah 4. Pilih sel D1 dan masukkan formula sel (C3 - 7 ) C4. Tangkapan layar seharusnya terlihat seperti berikut: Nilai di sel D1 adalah nilai statistik uji. Karena nilai ini jatuh dalam kisaran penerimaan -1,96 sampai 1,96 (dari tabel distribusi normal), kita gagal menolak hipotesis nol. Ukuran Sampel Kecil (katakanlah, kurang dari 30): Dengan menggunakan langkah-langkah yang diambil dalam ukuran sampel yang besar, Excel dapat digunakan untuk melakukan hipotesis untuk kasus sampel kecil. Mari kita gunakan penghasilan per jam dari 10 mahasiswa belajar kerja di UB untuk melakukan hipotesis berikut. Hipotesis nol menunjukkan bahwa rata-rata penghasilan per jam siswa belajar kerja sama dengan 7 per jam. Hipotesis alternatif menunjukkan bahwa rata-rata pendapatan per jam tidak sama dengan 7 per jam. Saya akan mengulangi langkah-langkah yang diambil dalam statistik deskriptif dan pada akhirnya akan menunjukkan bagaimana menemukan nilai statistik uji dalam hal ini quottquot dengan menggunakan formula sel. Langkah 1. Masukkan data di sel A1 ke A10 (di spreadsheet) Langkah 2. Dari menu pilih Tools Langkah 3. Klik Analisis Data lalu pilih pilihan Deskriptif Statistik. Klik Oke. Pada dialog statistik deskriptif, klik pada Statistik Ringkas. Pilih kotak Output Range, masukkan B1 atau apapun lokasi yang Anda pilih. Sekali lagi, klik OK. (Untuk menghitung nilai statistik uji pencarian rata-rata sampel maka kesalahan standar, pada output ini nilai-nilai ini ada di sel C3 dan C4.) Langkah 4. Pilih sel D1 dan masukkan formula sel (C3 - 7) C4. Tangkapan layar akan terlihat seperti berikut: Karena nilai statistik uji t -0.66896 jatuh dalam kisaran penerimaan -2,262 sampai 2,262 (dari t tabel, di mana 0,025 dan derajat kebebasannya adalah 9), kita gagal menolak hipotesis nol. Perbedaan Antara Mean Dua Populasi Pada bagian ini kita akan menunjukkan bagaimana Excel digunakan untuk melakukan tes hipotesis tentang perbedaan antara dua mean populasi dengan asumsi bahwa populasi memiliki varians yang sama. Data dalam kasus ini diambil dari berbagai kantor di Universitas Baltimore. Saya mengumpulkan data pendapatan per jam dari 36 siswa studi kerja yang dipilih secara acak dan 36 asisten siswa. Rentang pendapatan per jam untuk siswa belajar kerja adalah 6-8, sementara rentang penghasilan per jam untuk asisten siswa adalah 6-9. Tujuan utama dalam pengujian hipotesis ini adalah untuk melihat apakah ada perbedaan yang signifikan antara mean dari kedua populasi tersebut. NULL dan hipotesis ALTERNATIF adalah bahwa meannya sama dan meannya tidak sama. Mengacu pada spreadsheet, saya memilih A1 dan A2 sebagai label center. Penghasilan studi siswa per jam untuk ukuran sampel 36 ditunjukkan pada sel A2: A37. Dan asisten siswa per jam penghasilan untuk ukuran sampel 36 ditunjukkan pada sel B2: B37 Data untuk Studi Kerja Siswa: 6, 6, 6, 6, 6, 6, 6, 6.5, 6.5, 6.5, 6.5, 6.5, 6.5, 7, 7, 7, 7, 7, 7, 7, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 8, 8, 8, 8, 8, 8, 8, 8, 8. Data untuk Asisten Siswa: 6 , 6, 6, 6, 6, 6.5, 6.5, 6.5, 6.5, 6.5, 7, 7, 7, 7, 7, 7.5, 7.5, 7.5, 7.5, 7.5, 7.5, 8, 8, 8, 8, 8 , 8, 8, 8.5, 8.5, 8.5, 8.5, 8.5, 9, 9, 9, 9. Gunakan prosedur Deskriptif Statistik untuk menghitung varians dari dua sampel. Prosedur Excel untuk menguji perbedaan antara kedua populasi tersebut berarti memerlukan informasi tentang varians dari dua populasi tersebut. Karena varians dari kedua populasi tersebut tidak diketahui, mereka harus diganti dengan varians sampel. Deskriptif untuk kedua sampel menunjukkan bahwa varians sampel pertama adalah s 1 2 0,55546218. Sedangkan varians dari sampel kedua s 2 2 0,969748. Untuk melakukan tes hipotesis yang dikehendaki dengan Excel maka langkah-langkah berikut bisa dilakukan: Langkah 1. Dari menu pilih Tools lalu klik pada pilihan Data Analysis. Langkah 2. Saat kotak dialog Analisis Data muncul: Pilih z-Test: Dua Contoh untuk sarana lalu klik OK Langkah 3. Saat kotak Uji z: Dua Contoh untuk sarana muncul: Masukkan A1: A36 di kotak kisaran variabel 1 (Kerja-belajar siswa penghasilan per jam) Masukkan B1: B36 di kotak variabel 2 range (asisten siswa penghasilan per jam) Masukkan 0 di kotak Mean Difference (jika Anda ingin menguji perbedaan rata-rata selain 0, masukkan nilai itu) Enter Varians dari sampel pertama di kotak Variance 1 Variance Masukkan varians sampel kedua di kotak Variabel 2 Variance dan pilih Labels Enter 0.05 atau, tingkat tingkat kepentingan apa yang Anda inginkan, di kotak Alpha Pilih Range Output yang sesuai untuk Hasilnya, saya memilih C19. Lalu klik OK. Nilai uji statistik z-1.9845824 muncul dalam kasus kami di sel D24. Aturan penolakan untuk pengujian ini adalah z 1.96 dari tabel distribusi normal. Dalam output Excel nilai-nilai ini untuk uji dua ekor adalah z 1,959961082. Karena nilai uji statistik z-1.9845824 kurang dari -1.959961082 kita menolak hipotesis nol. We can also draw this conclusion by comparing the p-value for a two tail - test and the alpha value. Since p-value 0.047190813 is less than a0.05 we reject the null hypothesis. Overall we can say, based on the sample results, the two populations means are different. Small Samples: n 1 OR n 2 are less than 30 In this section we will show how Excel is used to conduct a hypothesis test about the difference between two population means. - Given that the populations have equal variances when two small independent samples are taken from both populations. Similar to the above case, the data in this case are taken from various offices here at the University of Baltimore. I collected hourly income data of 11 randomly selected work-study students and 11 randomly selected student assistants. The hourly income range for both groups was similar range, 6 - 8 and 6-9. The main objective in this hypothesis testing is similar too, to see whether there is a significant difference between the means of the two populations. The NULL and the ALTERNATIVE hypothesis are that the means are equal and they are not equal, respectively. Referring to the spreadsheet, we chose A1 and A2 as label centers. The work-study students hourly income for a sample size 11 are shown in cells A2:A12 . and the student assistants hourly income for a sample size 11 is shown in cells B2:B12 . Unlike previous case, you do not have to calculate the variances of the two samples, Excel will automatically calculate these quantities and use them in the calculation of the value of the test statistic. Similar to the previous case, but a bit different in step 2, to conduct the desired test hypothesis with Excel the following steps can be taken: Step 1. From the menus select Tools then click on the Data Analysis option. Step 2. When the Data Analysis dialog box appears: Choose t-Test: Two Sample Assuming Equal Variances then click OK Step 3 When the t-Test: Two Sample Assuming Equal Variances dialog box appears : Enter A1:A12 in the variable 1 range box (work-study student hourly income) Enter B1:B12 in the variable 2 range box (student assistant hourly income) Enter 0 in the Hypothesis Mean Difference box(if you desire to test a mean difference other than zero, enter that value) then select Labels Enter 0.05 or, whatever level of significance you desire, in the Alpha box Select a suitable Output Range for the results, I chose C1, then click OK. The value of the test statistic t-1.362229828 appears, in our case, in cell D10. The rejection rule for this test is t 2.086 from the t distribution table where the t value is based on a t distribution with n 1 - n 2 -2 degrees of freedom and where the area of the upper one tail is 0.025 ( that is equal to alpha2). In the Excel output the values for a two-tail test are t 2.085962478. Since the value of the test statistic t-1.362229828, is in an acceptance range of t 2.085962478, we fail to reject the null hypothesis. We can also draw this conclusion by comparing the p-value for a two-tail test and the alpha value. Since the p-value 0.188271278 is greater than a0.05 again . we fail to reject the null hypothesis. Overall we can say, based on sample results, the two populations means are equal. Enter data in an Excel work sheet starting with cell A2 and ending with cell C8. The following steps should be taken to find the proper output for interpretation. Step 1. From the menus select Tools and click on Data Analysis option. Step 2. When data analysis dialog appears, choose Anova single-factor option enter A2:C8 in the input range box. Select labels in first row. Step3. Select any cell as output(in here we selected A11). Klik Oke. The general form of Anova table looks like following: Source of Variation Suppose the test is done at level of significance a 0.05, we reject the null hypothesis. This means there is a significant difference between means of hourly incomes of student assistants in these departments. The Two-way ANOVA Without Replication In this section, the study involves six students who were offered different hourly wages in three different department services here at the University of Baltimore. The objective is to see whether the hourly incomes are the same. Therefore, we can consider the following: Treatment: Hourly payments in the three departments Blocks: Each student is a block since each student has worked in the three different departments The general form of Anova table would look like: Source of Variation Degrees of freedom To find the Excel output for the above data the following steps can be taken: Step 1. From the menus select Tools and click on Data Analysis option. Step2. When data analysis box appears: select Anova two-factor without replication then Enter A2: D8 in the input range. Select labels in first row. Step3. Select an output range (in here we selected A11) then OK. Source of Variation NOTE: FMSTMSE 0.9805560.497222 1.972067 F 3.33 from table (5 numerator DF and 10 denominator DF) Since 1.972067 Goodness-of-Fit Test for Discrete Random Variables The CHI-SQUARE distribution can be used in a hypothesis test involving a population variance. However, in this section we would like to test and see how close a sample results are to the expected results. Example: The Multinomial Random Variable In this example the objective is to see whether or not based on a randomly selected sample information the standards set for a population is met. There are so many practical examples that can be used in this situation. For example it is assumed the guidelines for hiring people with different ethnic background for the US government is set at 70(WHITE), 20(African American) and 10(others), respectively. A randomly selected sample of 1000 US employees shows the following results that is summarized in a table. EXPECTED NUMBER OF EMPLOYEES OBSERVED FROM SAMPLE As you see the observed sample numbers for groups two and three are lower than their expected values unlike group one which has a higher expected value. Is this a clear sign of discrimination with respect to ethnic background Well depends on how much lower the expected values are. The lower amount might not statistically be significant. To see whether these differences are significant we can use Excel and find the value of the CHI-SQUARE. If this value falls within the acceptance region we can assume that the guidelines are met otherwise they are not. Now lets enter these numbers into Excel spread - sheet. We used cells B7-B9 for the expected proportions, C7-C9 for the observed values and D7-D9 for the expected frequency. To calculate the expected frequency for a category, you can multiply the proportion of that category by the sample size (in here 1000). The formula for the first cell of the expected value column, D7 is 1000B7. To find other entries in the expected value column, use the copy and the paste menu as shown in the following picture. These are important values for the chi-square test. The observed range in this case is C7: C9 while the expected range is D7: D9. The null and the alternative hypothesis for this test are as follows: H A . The population proportions are not P W 0.70, P A 0.20 and P O 0.10 Now lets use Excel to calculate the p-value in a CHI-SQUARE test. Step 1. Select a cell in the work sheet, the location which you like the p value of the CHI-SQUARE to appear. We chose cell D12. Step 2. From the menus, select insert then click on the Function option, Paste Function dialog box appears. Step 3. Refer to function category box and choose statistical . from function name box select CHITEST and click on OK . Step 4. When the CHITEST dialog appears: Enter C7: C9 in the actual-range box then enter D7: D9 in the expected-range box, and finally click on OK . The p-value will appear in the selected cell, D12. As you see the p value is 0.002392 which is less than the value of the level of significance (in this case the level of significance, a 0.10). Hence the null hypothesis should be rejected. This means based on the sample information the guidelines are not met. Notice if you type CHITEST(C7:C9,D7:D9) in the formula bar the p-value will show up in the designated cell. NOTE: Excel can actually find the value of the CHI-SQUARE. To find this value first select an empty cell on the spread sheet then in the formula bar type CHIINV(D12,2). D12 designates the p-Value found previously and 2 is the degrees of freedom (number of rows minus one). The CHI-SQUARE value in this case is 12.07121. If we refer to the CHI-SQUARE table we will see that the cut off is 4.60517 since 12.071214.60517 we reject the null. The following screen shot shows you how to the CHI-SQUARE value. Test of Independence: Contingency Tables The CHI-SQUARE distribution is also used to test and see whether two variables are independent or not. For example based on sample data you might want to see whether smoking and gender are independent events for a certain population. The variables of interest in this case are smoking and the gender of an individual. Another example in this situation could involve the age range of an individual and his or her smoking habit. Similar to case one data may appear in a table but unlike the case one this table may contains several columns in addition to rows. The initial table contains the observed values. To find expected values for this table we set up another table similar to this one. To find the value of each cell in the new table we should multiply the sum of the cell column by the sum of the cell row and divide the results by the grand total. The grand total is the total number of observations in a study. Now based on the following table test whether or not the smoking habit and gender of the population that the following sample taken from are independent. On the other hand is that true that males in this population smoke more than females You could use formula bar to calculate the expected values for the expected range. For example to find the expected value for the cell C5 which is replaced in c11 you could click on the formula bar and enter C6D5D6 then enter in cell C11. Step 1. Observed Range b4:c5 Smoking and gender So the observed range is b4:c5 and the expected range is b10:c11. Step 3. Click on fx (paste function) Step 4. When Paste Function dialog box appears, click on Statistical in function category and CHITEST in the function name then click OK. When the CHITEST box appears, enter b4:c5 for the actual range, then b10:c11 for the expected range. Step 5. Click on OK (the p-value appears). 0.477395 Conclusion: Since p-value is greater than the level of significance (0.05), fails to reject the null. This means smoking and gender are independent events. Based on sample information one can not assure females smoke more than males or the other way around. Step 6. To find the chi-square value, use CHINV function, when Chinv box appears enter 0.477395 for probability part, then 1 for the degrees of freedom. Degrees of freedom(number of columns-1)X(number of rows-1) Test Hypothesis Concerning the Variance of Two Populations In this section we would like to examine whether or not the variances of two populations are equal. Whenever independent simple random samples of equal or different sizes such as n 1 and n 2 are taken from two normal distributions with equal variances, the sampling distribution of s 1 2 s 2 2 has F distribution with n 1 - 1 degrees of freedom for the numerator and n 2 - 1 degrees of freedom for the denominator. In the ratio s 1 2 s 2 2 the numerator s 1 2 and the denominator s 2 2 are variances of the first and the second sample, respectively. The following figure shows the graph of an F distribution with 10 degrees of freedom for both the numerator and the denominator. Unlike the normal distribution as you see the F distribution is not symmetric. The shape of an F distribution is positively skewed and depends on the degrees of freedom for the numerator and the denominator. The value of F is always positive. Now let see whether or not the variances of hourly income of student-assistant and work-study students based on samples taken from populations previously are equal. Assume that the hypothesis test in this case is conducted at a 0.10. The null and the alternative are: Rejection Rule: Reject the null hypothesis if Flt F 0.095 or Fgt F 0.05 where F, the value of the test statistic is equal to s 1 2 s 2 2. with 10 degrees of freedom for both the numerator and the denominator. We can find the value of F .05 from the F distribution table. If s 1 2 s 2 2. we do not need to know the value of F 0.095 otherwise, F 0.95 1 F 0.05 for equal sample sizes. A survey of eleven student-assistant and eleven work-study students shows the following descriptive statistics. Our objective is to find the value of s 1 2 s 2 2. where s 1 2 is the value of the variance of student assistant sample and s 2 2 is the value of the variance of the work study students sample. As you see these values are in cells F8 and D8 of the descriptive statistic output. To calculate the value of s 1 2 s 2 2. select a cell such as A16 and enter cell formula F8D8 and enter. This is the value of F in our problem. Since this value, F1.984615385, falls in acceptance area we fail to reject the null hypothesis. Hence, the sample results do support the conclusion that student assistants hourly income variance is equal to the work study students hourly income variance. The following screen shoot shows how to find the F value. We can follow the same format for one tail test(s). Linear Correlation and Regression Analysis In this section the objective is to see whether there is a correlation between two variables and to find a model that predicts one variable in terms of the other variable. There are so many examples that we could mention but we will mention the popular ones in the world of business. Usually independent variable is presented by the letter x and the dependent variable is presented by the letter y. A business man would like to see whether there is a relationship between the number of cases of sold and the temperature in a hot summer day based on information taken from the past. He also would like to estimate the number cases of soda which will be sold in a particular hot summer day in a ball game. He clearly recorded temperatures and number of cases of soda sold on those particular days. The following table shows the recorded data from June 1 through June 13. The weatherman predicts a 94F degree temperature for June 14. The businessman would like to meet all demands for the cases of sodas ordered by customers on June 14. Now lets use Excel to find the linear correlation coefficient and the regression line equation. The linear correlation coefficient is a quantity between -1 and 1. This quantity is denoted by R . The closer R to 1 the stronger positive (direct) correlation and similarly the closer R to -1 the stronger negative (inverse) correlation exists between the two variables. The general form of the regression line is y mx b. In this formula, m is the slope of the line and b is the y-intercept. You can find these quantities from the Excel output. In this situation the variable y (the dependent variable) is the number of cases of soda and the x (independent variable) is the temperature. To find the Excel output the following steps can be taken: Step 1. From the menus choose Tools and click on Data Analysis. Step 2. When Data Analysis dialog box appears, click on correlation. Step 3. When correlation dialog box appears, enter B1:C14 in the input range box. Click on Labels in first row and enter a16 in the output range box. Click on OK. As you see the correlation between the number of cases of soda demanded and the temperature is a very strong positive correlation. This means as the temperature increases the demand for cases of soda is also increasing. The linear correlation coefficient is 0.966598577 which is very close to 1. Now lets follow same steps but a bit different to find the regression equation. Step 1. From the menus choose Tools and click on Data Analysis Step 2 . When Data Analysis dialog box appears, click on regression . Step 3. When Regression dialog box appears, enter b1:b14 in the y-range box and c1:c14 in the x-range box. Click on labels . Step 4. Enter a19 in the output range box . Note: The regression equation in general should look like Ym X b. In this equation m is the slope of the regression line and b is its y-intercept. Adjusted R Square The relationship between the number of cans of soda and the temperature is: Y 0.879202711 X 9.17800767 The number of cans of soda 0.879202711(Temperature) 9.17800767. Referring to this expression we can approximately predict the number of cases of soda needed on June 14. The weather forecast for this is 94 degrees, hence the number of cans of soda needed is equal to The number of cases of soda0.879202711(94) 9.17800767 91.82 or about 92 cases. Moving Average and Exponential Smoothing Moving Average Models: Use the Add Trendline option to analyze a moving average forecasting model in Excel. You must first create a graph of the time series you want to analyze. Select the range that contains your data and make a scatter plot of the data. Once the chart is created, follow these steps: Click on the chart to select it, and click on any point on the line to select the data series. When you click on the chart to select it, a new option, Chart, s added to the menu bar. From the Chart menu, select Add Trendline. The following is the moving average of order 4 for weekly sales: Exponential Smoothing Models: The simplest way to analyze a timer series using an Exponential Smoothing model in Excel is to use the data analysis tool. This tool works almost exactly like the one for Moving Average, except that you will need to input the value of a instead of the number of periods, k. Once you have entered the data range and the damping factor, 1- a. and indicated what output you want and a location, the analysis is the same as the one for the Moving Average model. Applications and Numerical Examples Descriptive Statistics: Suppose you have the following, n 10, data: 1.2, 1.5, 2.6, 3.8, 2.4, 1.9, 3.5, 2.5, 2.4, 3.0 Type your n data points into the cells A1 through An. Click on the Tools menu. (At the bottom of the Tools menu will be a submenu Data Analysis. , if the Analysis Tool Pack has been properly installed.) Clicking on Data Analysis. will lead to a menu from which Descriptive Statistics is to be selected. Select Descriptive Statistics by pointing at it and clicking twice, or by highlighting it and clicking on the Okay button. Within the Descriptive Statistics submenu, a. for the input range enter A1:Dn, assuming you typed the data into cells A1 to An. b. click on the output range button and enter the output range C1:C16. C. click on the Summary Statistics box d. finally, click on Okay. The Central Tendency: The data can be sorted in ascending order: 1.2, 1.5, 1.9, 2.4, 2.4, 2.5, 2.6, 3.0, 3.5, 3.8 The mean, median and mode are computed as follows: (1.2 1.5 2.6 3.8 2.4 1.9 3.5 2.5 2.4 3.0) 10 2.48 The mode is 2.4, since it is the only value that occurs twice. The midrange is (1.2 3.8) 2 2.5. Note that the mean, median and mode of this set of data are very close to each other. This suggests that the data is very symmetrically distributed. Variance: The variance of a set of data is the average of the cumulative measure of the squares of the difference of all the data values from the mean. The sample variance-based estimation for the population variance are computed differently. The sample variance is simply the arithmetic mean of the squares of the difference between each data value in the sample and the mean of the sample. On the other hand, the formula for an estimate for the variance in the population is similar to the formula for the sample variance, except that the denominator in the fraction is (n-1) instead of n. However, you should not worry about this difference if the sample size is large, say over 30. Compute an estimate for the variance of the population . given the following sorted data: 1.2, 1.5, 1.9, 2.4, 2.4, 2.5, 2.6, 3.0, 3.5, 3.8 mean 2.48 as computed earlier. An estimate for the population variance is: s 2 1 (10-1) (1.2 - 2.48) 2 (1.5 - 2.48) 2 (1.9 - 2.48) 2 (2.4 -2.48) 2 (2.4 - 2.48) 2 (2.5 - 2.48) 2 (2.6 - 2.48) 2 (3.0 - 2.48) 2 (3.5 -2.48) 2 (3.8 - 2.48) 2 (1 9) (1.6384 0.9604 0.3364 0.0064 0.0064 0.0004 0.0144 0.2704 1.0404 1.7424) 0.6684 Therefore, the standard deviation is s ( 0.6684 ) 12 0.8176 Probability and Expected Values: Newsweek reported that average take for bank robberies was 3,244 but 85 percent of the robbers were caught. Assuming 60 percent of those caught lose their entire take and 40 percent lose half, graph the probability mass function using EXCEL. Calculate the expected take from a bank robbery. Does it pay to be a bank robber To construct the probability function for bank robberies, first define the random variable x, bank robbery take. If the robber is not caught, x 3,244. If the robber is caught and manages to keep half, x 1,622. If the robber is caught and loses it all, then x 0. The associated probabilities for these x values are 0.15 (1 - 0.85), 0.34 (0.85)(0.4), and 0.51 (0.85)(0.6). After entering the x values in cells A1, A2 and A3 and after entering the associated probabilities in B1, B2, and B3, the following steps lead to the probability mass function: Click on ChartWizard. The ChartWizard Step 1 of 4 screen will appear. Highlight Column at ChartWizard Step 1 of 4 and click Next. At ChartWizard Step 2 of 4 Chart Source Data, enter B1:B3 for Data range, and click column button for Series in. A graph will appear. Click on series toward the top of the screen to get a new page. At the bottom of the Series page, is a rectangle for Category (X) axis labels: Click on this rectangle and then highlight A1:A3. At Step 3 of 4 move on by clicking on Next, and at Step 4 of 4, click on Finish. The expected value of a robbery is 1,038.08. E(X) (0)(0.51)(1622)(0.34) (3244)(0.15) 0 551.48 486.60 1038.08 The expected return on a bank robbery is positive. On average, bank robbers get 1,038.08 per heist. If criminals make their decisions strictly on this expected value, then it pays to rob banks. A decision rule based only on an expected value, however, ignores the risks or variability in the returns. In addition, our expected value calculations do not include the cost of jail time, which could be viewed by criminals as substantial. Discrete Continuous Random Variables: Binomial Distribution Application: A multiple choice test has four unrelated questions. Each question has five possible choices but only one is correct. Thus, a person who guesses randomly has a probability of 0.2 of guessing correctly. Draw a tree diagram showing the different ways in which a test taker could get 0, 1, 2, 3 and 4 correct answers. Sketch the probability mass function for this test. What is the probability a person who guesses will get two or more correct Solution: Letting Y stand for a correct answer and N a wrong answer, where the probability of Y is 0.2 and the probability of N is 0.8 for each of the four questions, the probability tree diagram is shown in the textbook on page 182. This probability tree diagram shows the branches that must be followed to show the calculations captured in the binomial mass function for n 4 and 0.2. For example, the tree diagram shows the six different branch systems that yield two correct and two wrong answers (which corresponds to 4(22) 6. The binomial mass function shows the probability of two correct answers as P(x 2 n 4, p 0.2) 6(.2)2(.8)2 6(0.0256) 0.1536 P(2) Which is obtained from excel by using the BINOMDIST Command, where the first entry is x, the second is n, and the third is mass (0) or cumulative (1) that is, entering BINOMDIST(2,4,0.2,0) IN ANY EXCEL CELL YIELDS 0.1536 AND BINOMDIST(3,4,0.2,0) YIELDS P(x3n4, p 0.2) 0.0256 BINOMDIST(4,4,0.2,0) YIELDS P(x4n4, p 0.2) 0.0016 1-BINOMDIST(1,4,0.2,1) YIELDS P(x 179 2 n 4, p 0.2) 0.1808 Normal Example: If the time required to complete an examination by those with a certain learning disability is believed to be distributed normally, with mean of 65 minutes and a standard deviation of 15 minutes, then when can the exam be terminated so that 99 percent of those with the disability can finish Solution: Because t he average and standard deviation are known, what needs to be established is the amount of time, above the mean time, such that 99 percent of the distribution is lower. This is a distance that is measured in standard deviations as given by the Z value corresponding to the 0.99 probability found in the body of Appendix B, Table 5,as shown in the textbook OR the commands entered into any cell of Excel to find this Z value is NORMINV(0.99,0,1) for 2.326342. The closest cumulative probability that can be found is 0.9901, in the row labeled 2.3 and column headed by .03, Z 2.33, which is only an approximation for the more exact 2.326342 found in Excel. Using this more exact value the calculation with mean m and standard deviation s in the following formula would be Z ( X - m ) s That is, Z ( x - 65)15 Thus, x 65 15(2.32634) 99.9 minutes. Alternatively, instead of standardizing with the Z distribution using Excel we can simply work directly with the normal distribution with a mean of 65 and standard deviation of 15 and enter NORMINV(0.99,65,15). In general to obtain the x value for which alpha percent of a normal random variables values are lower, the following NORMINV command may be used, where the first entry is a. the second is m. and the third is s. Another Example: In the early 1980s, the Toro Company of Minneapolis, Minnesota, advertised that it would refund the purchase price of a snow blower if the following winters snowfall was less than 21 percent of the local average. If the average snowfall is 45.25 inches, with a standard deviation of 12.2 inches, what is the likelihood that Toro will have to make refunds Solution: Within limits, snowfall is a continuous random variable that can be expected to vary symmetrically around its mean, with values closer to the mean occurring most often. Thus, it seems reasonable to assume that snowfall (x) is approximately normally distributed with a mean of 45.25 inches and standard deviation of 12.2 inches. Nine and one half inches is 21 percent of the mean snowfall of 45.25 inches and, with a standard deviation of 12.2 inches, the number of standard deviations between 45.25 inches and 9.5 inches is Z: Z ( x - m ) s (9.50 - 45.25)12.2 -2.93 Using Appendix B, Table 5, the textbook demonstrates the determination of P(x 163 9.50) P(z 163 -2.93) 0.17, the probability of snowfall less than 9.5 inches. Using Excel, this normal probability is obtained with the NORMDIST command, where the first entry is x, the second is mean m. the third is standard deviation s, and the fourth is CUMULATIVE (1). Entering NORMDIST(9.5,45.25,12.2,1), Gives P( x 163 9.50) 0.001693. Sampling Distribution and the Central Limit Theorem : A bakery sells an average of 24 loaves of bread per day. Sales (x) are normally distributed with a standard deviation of 4. If a random sample of size n 1 (day) is selected, what is the probability this x value will exceed 28 If a random sample of size n 4 (days) is selected, what is theprobability that xbar 179 28 Why does the answer in part 1 differ from that in part 2 1. The sampling distribution of the sample mean xbar is normal with a mean of 24 and a standard error of the mean of 4. Thus, using Excel, 0.15866 1-NORMDIST(28,24,4,1). 2. The sampling distribution of the sample mean xbar is normal with a mean of 24 and a standard error of the mean of 2 using Excel, 0.02275 1-NORMDIST(28,24,2,1). Regression Analysis: The highway deaths per 100 million vehicle miles and highway speed limits for 10 countries, are given below: (Death, Speed) (3.0, 55), (3.3, 55), (3.4, 55), (3.5, 70), (4.1, 55), (4.3, 60), (4.7, 55), (4.9, 60), (5.1, 60), and (6.1, 75). From this we can see that five countries with the same speed limit have very different positions on the safety list. For example, Britain. with a speed limit of 70 is demonstrably safer than Japan, at 55. Can we argue that, speed has little to do with safety. Use regression analysis to answer this question. Solution: Enter the ten paired y and x data into cells A2 to A11 and B2 to B11, with the death rate label in A1 and speed limits label in B1, the following steps produce the regression output. Choose Regression from Data Analysis in the Tools menu. The Regression dialog box will will appear. Note: Use the mouse to move between the boxes and buttons. Click on the desired box or button. The large rectangular boxes require a range from the worksheet. A range may be typed in or selected by highlighting the cells with the mouse after clicking on the box. If the dialog box blocks the data, it can be moved on the screen by clicking on the title bar and dragging. For the Input Y Range, enter A1 to A11, and for the Input X Range enter B1 to B11. Because the Y and X ranges include the Death and Speed labels in A1 and B1, select the Labels box with a click. Click the Output Range button and type reference cell, which in this demonstration is A13. To get the predicted values of Y (Death rates) and residuals select the Residuals box with a click. Your screen display should show a Table, clicking OK will give the SUMMARY OUTPUT, ANOVA AND RESIDUAL OUTPUT The first section of the EXCEL printout gives SUMMARY OUTPUT. The Multiple R is the square root of the R Square the computation and interpretation of which we have already discussed. The Standard Error of estimate (which will be discussed in the next chapter) is s 0.86423, which is the square root of Residual SS 5.97511 divided by its degrees of freedom, df 8, as given in the ANOVA section. We will also discuss the adjusted R-square of 0.21325 in the following chapters. Under the ANOVA section are the estimated regression coefficients and related statistics that will be discussed in detail in the next chapter. For now it is sufficient to recognize that the calculated coefficient values for the slope and y intercept are provided (b 0.07556 and a -0.29333). Next to these coefficient estimates is information on the variability in the distribution of the least-squares estimators from which these specific estimates were drawn: the column titled Std. Error contains the standard deviations (standard errors) of the intercept and slope distributions the t-ratio and p columns give the calculated values of the t statistics and associated p-values. As shown in Chapter 13, the t statistic of 1.85458 and p-value of 0.10077, for example, indicates that the sample slope (0.07556) is sufficiently different from zero, at even the 0.10 two-tail Type I error level, to conclude that there is a significant relationship between deaths and speed limits in the population. This conclusion is contrary to assertion that speed has little to do with safety. SUMMARY OUTPUT: Multiple R 0.54833, R Square 0.30067, Adjusted R Square 0.21325, Standard Error 0.86423, Observations 10 ANOVA df SS MS F P-value Regression 1 2.56889 2.56889 3.43945 0.10077 Residual 8 5.97511 0.74689 Total 9 8.54400 Coeffs. Estimate Std. Error T Stat P-value Lower 95 Upper 95 Intercept -0.29333 2.45963 -0.11926 0.90801 -5.96526 5.37860 Speed 0.07556 0.04074 1.85458 0.10077 -0.01839 0.16950 Predicted Residuals 3.86222 -0.86222 3.86222 -0.56222 3.86222 -0.46222 4.99556 -1.49556 3.86222 0.23778 4.24000 0.06000 3.86222 0.83778 4.24000 0.66000 4.24000 0.86000 5.37333 0.72667 Microsoft Excel Add-Ins Forecasting with regression requires the Excel add-in called Analysis ToolPak , and linear programming requires the Excel add-in called Solver . How you check to see if these are activated on your computer, and how to activate them if they are not active, varies with Excel version. Here are instructions for the most common versions. If Excel will not let you activate Data Analysis and Solver, you must use a different computer. Excel 20022003: Start Excel, then click Tools and look for Data Analysis and for Solver. If both are there, press Esc (escape) and continue with the respective assignment. Otherwise click Tools, Add-Ins, and check the boxes for Analysis ToolPak and for Solver, then click OK. Click Tools again, and both tools should be there. Excel 2007: Start Excel 2007 and click the Data tab at the top. Look to see if Data Analysis and Solver show in the Analysis section at the far right. If both are there, continue with the respective assignment. Otherwise, do the following steps exactly as indicated: - click the 8220Office Button8221 at top left - click the Excel Options button near the bottom of the resulting window - click the Add-ins button on the left of the next screen - near the bottom at Manage Excel Add-ins, click Go - check the boxes for Analysis ToolPak and Solver Add-in if they are not already checked, then click OK - click the Data tab as above and verify that the add-ins show. Excel 2010: Start Excel 2010 and click the Data tab at the top. Look to see if Data Analysis and Solver show in the Analysis section at the far right. If both are there, continue with the respective assignment. Otherwise, do the following steps exactly as indicated: - click the File tab at top left - click the Options button near the bottom of the left side - click the Add-ins button near the bottom left of the next screen - near the bottom at Manage Excel Add-ins, click Go - check the boxes for Analysis ToolPak and Solver Add-in if they are not already checked, then click OK - click the Data tab as above and verify that the add-ins show. Solving Linear Programs by Excel Some of these examples can be modified for other types problems Computer-assisted Learning: E-Labs and Computational Tools My teaching style deprecates the plug the numbers into the software and let the magic box work it out approach. Personal computers, spreadsheets, e. g. Unggul. professional statistical packages (e. g. such as SPSS), and other information technologies are now ubiquitous in statistical data analysis. Without using these tools, one cannot perform any realistic statistical data analysis on large data sets. The appearance of other computer software, JavaScript Applets. Statistical Demonstrations Applets. and Online Computation are the most important events in the process of teaching and learning concepts in model-based statistical decision making courses. These tools allow you to construct numerical examples to understand the concepts, and to find their significance for yourself. Use any or online interactive tools available on the WWW to perform statistical experiments (with the same purpose, as you used to do experiments in physics labs to learn physics) to understand statistical concepts such as Central Limit Theorem are entertaining and educating. Computer-assisted learning is similar to the experiential model of learning. The adherents of experiential learning are fairly adamant about how we learn. Learning seldom takes place by rote. Learning occurs because we immerse ourselves in a situation in which we are forced to perform and think. You get feedback from the computer output and then adjust your thinking-process if needed. A SPSS-Example . SPSS-Examples . SPSS-More Examples . (Statistical Package for the Social Sciences) is a data management and analysis product. It can perform a variety of data analysis and presentation functions, including statistical analyses and graphical presentation of data. SAS (Statistical Analysis System) is a system of software packages some of its basic functions and uses are: database management inputting, cleaning and manipulating data, statistical analysis, calculating simple statistics such as means, variances, correlations running standard routines such as regressions. Available at: SPSSSAS Packages on Citrix (Installing and Accessing ) Use your email ID and Password: Technical Difficulties OTS Call Center (401) 837-6262 Excel Examples. Excel More Examples It is Excellent for Descriptive Statistics, and getting acceptance is improving, as computational tool for Inferential Statistics. The Value of Performing Experiment: If the learning environment is focused on background information, knowledge of terms and new concepts, the learner is likely to learn that basic information successfully. However, this basic knowledge may not be sufficient to enable the learner to carry out successfully the on-the-job tasks that require more than basic knowledge. Thus, the probability of making real errors in the business environment is high. On the other hand, if the learning environment allows the learner to experience and learn from failures within a variety of situations similar to what they would experience in the real world of their job, the probability of having similar failures in their business environment is low. This is the realm of simulations-a safe place to fail. The appearance of statistical software is one of the most important events in the process of decision making under uncertainty. Statistical software systems are used to construct examples, to understand the existing concepts, and to find new statistical properties. On the other hand, new developments in the process of decision making under uncertainty often motivate developments of new approaches and revision of the existing software systems. Statistical software systems rely on a cooperation of statisticians, and software developers. Beside the professional statistical software Online statistical computation . and the use of a scientific calculator is required for the course. A Scientific Calculator is the one, which has capability to give you, say, the result of square root of 5. Any calculator that goes beyond the 4 operations is fine for this course. These calculators allow you to perform simple calculations you need in this course, for example, enabling you to take square root, to raise e to the power of say, 0.36. dan seterusnya. These types of calculators are called general Scientific Calculators. There are also more specific and advanced calculators for mathematical computations in other areas such as Finance, Accounting, and even Statistics. The last one, for example, computes mean, variance, skewness, and kurtosis of a sample by simply entering all data one-by-one and then pressing any of the mean, variance, skewness, and kurtosis keys. Without a computer one cannot perform any realistic statistical data analysis. Students who are signing up for the course are expected to know the basics of Excel. As a starting point, you need visiting the Excel Web site created for this course. If you are challenged by or unfamiliar with Excel, you may seek tutorial help from the Academic Resource Center at 410-837-5385, E-mail. What and How to Hand-in My Computer Assignment For the computer assignment I do recommend in checking your hand computation homework, and checking some of the numerical examples from your textbook. As part of your homework assignment you don not have to hand in the printout of the computer assisted learning, however, you must include within your handing homework a paragraph entitled Computer Implementation describing your (positive or negative) experience. Interesting and Useful Sites The Copyright Statement: The fair use, according to the 1996 Fair Use Guidelines for Educational Multimedia. of materials presented on this Web site is permitted for non-commercial and classroom purposes only. This site may be mirrored intact (including these notices), on any server with public access. All files are available at home. ubalt. eduntsbarshBusiness-stat for mirroring. Kindly e-mail me your comments, suggestions, and concerns. Terima kasih. EOF: CopyRights 1994-2015.Moving average and exponential smoothing models As a first step in moving beyond mean models, random walk models, and linear trend models, nonseasonal patterns and trends can be extrapolated using a moving-average or smoothing model. Asumsi dasar di balik model rata-rata dan perataan adalah bahwa deret waktu secara lokal bersifat stasioner dengan mean yang bervariasi secara perlahan. Oleh karena itu, kita mengambil rata-rata bergerak (lokal) untuk memperkirakan nilai rata-rata saat ini dan kemudian menggunakannya sebagai perkiraan untuk waktu dekat. Hal ini dapat dianggap sebagai kompromi antara model rata-rata dan model random-walk-without-drift-model. Strategi yang sama dapat digunakan untuk memperkirakan dan mengekstrapolasikan tren lokal. Rata-rata bergerak sering disebut versi quotmoothedquot dari rangkaian aslinya karena rata-rata jangka pendek memiliki efek menghaluskan benjolan pada rangkaian aslinya. Dengan menyesuaikan tingkat smoothing (lebar rata-rata bergerak), kita dapat berharap untuk mencapai keseimbangan optimal antara kinerja model jalan rata-rata dan acak. Jenis model rata - rata yang paling sederhana adalah. Simple Moving Average: Prakiraan untuk nilai Y pada waktu t1 yang dilakukan pada waktu t sama dengan rata-rata sederhana dari pengamatan m terakhir: (Disini dan di tempat lain saya akan menggunakan simbol 8220Y-hat8221 untuk berdiri Untuk ramalan dari deret waktu yang dibuat Y pada tanggal sedini mungkin dengan model yang diberikan.) Rata-rata ini dipusatkan pada periode t - (m1) 2, yang menyiratkan bahwa perkiraan mean lokal cenderung tertinggal dari yang sebenarnya. Nilai mean lokal sekitar (m1) 2 periode. Jadi, kita katakan bahwa rata-rata usia data dalam rata-rata pergerakan sederhana adalah (m1) 2 relatif terhadap periode dimana ramalan dihitung: ini adalah jumlah waktu dimana perkiraan akan cenderung tertinggal dari titik balik data. . Misalnya, jika Anda rata-rata mendapatkan 5 nilai terakhir, prakiraan akan sekitar 3 periode terlambat dalam menanggapi titik balik. Perhatikan bahwa jika m1, model simple moving average (SMA) sama dengan model random walk (tanpa pertumbuhan). Jika m sangat besar (sebanding dengan panjang periode estimasi), model SMA setara dengan model rata-rata. Seperti parameter model peramalan lainnya, biasanya menyesuaikan nilai k untuk memperoleh kuotil kuotil terbaik ke data, yaitu kesalahan perkiraan terkecil. Berikut adalah contoh rangkaian yang tampaknya menunjukkan fluktuasi acak di sekitar rata-rata yang bervariasi secara perlahan. Pertama, mari mencoba menyesuaikannya dengan model jalan acak, yang setara dengan rata-rata bergerak sederhana dari 1 istilah: Model jalan acak merespons dengan sangat cepat terhadap perubahan dalam rangkaian, namun dengan begitu, ia menggunakan banyak kuotimasi dalam Data (fluktuasi acak) serta quotsignalquot (mean lokal). Jika kita mencoba rata-rata bergerak sederhana dari 5 istilah, kita mendapatkan perkiraan perkiraan yang tampak lebih halus: Rata-rata pergerakan sederhana 5 langkah menghasilkan kesalahan yang jauh lebih kecil daripada model jalan acak dalam kasus ini. Usia rata-rata data dalam ramalan ini adalah 3 ((51) 2), sehingga cenderung tertinggal beberapa titik balik sekitar tiga periode. (Misalnya, penurunan tampaknya terjadi pada periode 21, namun prakiraan tidak berbalik sampai beberapa periode kemudian.) Perhatikan bahwa perkiraan jangka panjang dari model SMA adalah garis lurus horizontal, seperti pada pergerakan acak. model. Dengan demikian, model SMA mengasumsikan bahwa tidak ada kecenderungan dalam data. Namun, sedangkan prakiraan dari model jalan acak sama dengan nilai pengamatan terakhir, prakiraan dari model SMA sama dengan rata-rata tertimbang nilai terakhir. Batas kepercayaan yang dihitung oleh Statgraf untuk perkiraan jangka panjang rata-rata bergerak sederhana tidak semakin luas seiring dengan meningkatnya horizon peramalan. Ini jelas tidak benar Sayangnya, tidak ada teori statistik yang mendasari yang memberi tahu kita bagaimana interval kepercayaan harus melebar untuk model ini. Namun, tidak terlalu sulit untuk menghitung perkiraan empiris batas kepercayaan untuk perkiraan horizon yang lebih panjang. Misalnya, Anda bisa membuat spreadsheet di mana model SMA akan digunakan untuk meramalkan 2 langkah di depan, 3 langkah di depan, dan lain-lain dalam sampel data historis. Anda kemudian bisa menghitung penyimpangan standar sampel dari kesalahan pada setiap horison perkiraan, dan kemudian membangun interval kepercayaan untuk perkiraan jangka panjang dengan menambahkan dan mengurangi kelipatan dari deviasi standar yang sesuai. Jika kita mencoba rata-rata bergerak sederhana 9-istilah, kita mendapatkan perkiraan yang lebih halus dan lebih banyak efek lagging: Usia rata-rata sekarang adalah 5 periode ((91) 2). Jika kita mengambil moving average 19-term, rata-rata usia meningkat menjadi 10: Perhatikan bahwa, memang, ramalannya sekarang tertinggal dari titik balik sekitar 10 periode. Jumlah smoothing yang terbaik untuk seri ini Berikut adalah tabel yang membandingkan statistik kesalahan mereka, juga termasuk rata-rata 3-rata: Model C, rata-rata pergerakan 5-term, menghasilkan nilai RMSE terendah dengan margin kecil di atas 3 - term dan rata-rata 9-istilah, dan statistik lainnya hampir sama. Jadi, di antara model dengan statistik kesalahan yang sangat mirip, kita bisa memilih apakah kita lebih memilih sedikit responsif atau sedikit lebih kehalusan dalam prakiraan. (Lihat ke atas halaman.) Browns Simple Exponential Smoothing (rata-rata bergerak rata-rata tertimbang) Model rata-rata bergerak sederhana yang dijelaskan di atas memiliki properti yang tidak diinginkan sehingga memperlakukan pengamatan terakhir secara sama dan sama sekali mengabaikan semua pengamatan sebelumnya. Secara intuitif, data masa lalu harus didiskontokan secara lebih bertahap - misalnya, pengamatan terbaru harus mendapatkan bobot sedikit lebih besar dari yang terakhir, dan yang ke-2 terakhir harus mendapatkan bobot sedikit lebih banyak dari yang ke-3 terakhir, dan Begitu seterusnya Model pemulusan eksponensial sederhana (SES) menyelesaikan hal ini. Misalkan 945 menunjukkan kuototmothing constantquot (angka antara 0 dan 1). Salah satu cara untuk menulis model adalah dengan menentukan rangkaian L yang mewakili tingkat saat ini (yaitu nilai rata-rata lokal) dari seri yang diperkirakan dari data sampai saat ini. Nilai L pada waktu t dihitung secara rekursif dari nilai sebelumnya seperti ini: Dengan demikian, nilai smoothed saat ini adalah interpolasi antara nilai smoothed sebelumnya dan pengamatan saat ini, di mana 945 mengendalikan kedekatan nilai interpolasi dengan yang paling baru. pengamatan. Perkiraan untuk periode berikutnya hanyalah nilai merapikan saat ini: Secara ekivalen, kita dapat mengekspresikan ramalan berikutnya secara langsung dalam perkiraan sebelumnya dan pengamatan sebelumnya, dengan versi setara berikut. Pada versi pertama, ramalan tersebut merupakan interpolasi antara perkiraan sebelumnya dan pengamatan sebelumnya: Pada versi kedua, perkiraan berikutnya diperoleh dengan menyesuaikan perkiraan sebelumnya ke arah kesalahan sebelumnya dengan jumlah pecahan 945. adalah kesalahan yang dilakukan pada Waktu t. Pada versi ketiga, perkiraan tersebut adalah rata-rata bergerak tertimbang secara eksponensial (yaitu diskon) dengan faktor diskonto 1- 945: Versi perumusan rumus peramalan adalah yang paling mudah digunakan jika Anda menerapkan model pada spreadsheet: sesuai dengan Sel tunggal dan berisi referensi sel yang mengarah ke perkiraan sebelumnya, pengamatan sebelumnya, dan sel dimana nilai 945 disimpan. Perhatikan bahwa jika 945 1, model SES setara dengan model jalan acak (tanpa pertumbuhan). Jika 945 0, model SES setara dengan model rata-rata, dengan asumsi bahwa nilai smoothing pertama ditetapkan sama dengan mean. (Kembali ke atas halaman.) Usia rata-rata data dalam perkiraan pemulusan eksponensial sederhana adalah 1 945 relatif terhadap periode dimana ramalan dihitung. (Ini tidak seharusnya jelas, namun dengan mudah dapat ditunjukkan dengan mengevaluasi rangkaian tak terbatas.) Oleh karena itu, perkiraan rata-rata bergerak sederhana cenderung tertinggal dari titik balik sekitar 1 945 periode. Misalnya, ketika 945 0,5 lag adalah 2 periode ketika 945 0,2 lag adalah 5 periode ketika 945 0,1 lag adalah 10 periode, dan seterusnya. Untuk usia rata-rata tertentu (yaitu jumlah lag), ramalan eksponensial eksponensial sederhana (SES) agak lebih unggul daripada ramalan rata-rata bergerak sederhana karena menempatkan bobot yang relatif lebih tinggi pada pengamatan terakhir - i. Ini sedikit lebih responsif terhadap perubahan yang terjadi di masa lalu. Sebagai contoh, model SMA dengan 9 istilah dan model SES dengan 945 0,2 keduanya memiliki usia rata-rata 5 untuk data dalam perkiraan mereka, namun model SES memberi bobot lebih besar pada 3 nilai terakhir daripada model SMA dan pada Pada saat yang sama, hal itu sama sekali tidak sesuai dengan nilai lebih dari 9 periode, seperti yang ditunjukkan pada tabel ini: Keuntungan penting lain dari model SES dibandingkan model SMA adalah model SES menggunakan parameter pemulusan yang terus menerus bervariasi, sehingga mudah dioptimalkan. Dengan menggunakan algoritma quotsolverquot untuk meminimalkan kesalahan kuadrat rata-rata. Nilai optimal 945 dalam model SES untuk seri ini ternyata adalah 0,2961, seperti yang ditunjukkan di sini: Usia rata-rata data dalam ramalan ini adalah 10.2961 3,4 periode, yang serupa dengan rata-rata pergerakan sederhana 6-istilah. Perkiraan jangka panjang dari model SES adalah garis lurus horisontal. Seperti pada model SMA dan model jalan acak tanpa pertumbuhan. Namun, perhatikan bahwa interval kepercayaan yang dihitung oleh Statgraphics sekarang berbeda dengan mode yang tampak wajar, dan secara substansial lebih sempit daripada interval kepercayaan untuk model perjalanan acak. Model SES mengasumsikan bahwa seri ini agak dapat diprediksi daripada model acak berjalan. Model SES sebenarnya adalah kasus khusus model ARIMA. Sehingga teori statistik model ARIMA memberikan dasar yang kuat untuk menghitung interval kepercayaan untuk model SES. Secara khusus, model SES adalah model ARIMA dengan satu perbedaan nonseasonal, MA (1), dan tidak ada istilah konstan. Atau dikenal sebagai model quotARIMA (0,1,1) tanpa constantquot. Koefisien MA (1) pada model ARIMA sesuai dengan kuantitas 1- 945 pada model SES. Misalnya, jika Anda memasukkan model ARIMA (0,1,1) tanpa konstan pada rangkaian yang dianalisis di sini, koefisien MA (0) diperkirakan berubah menjadi 0,7029, yang hampir persis satu minus 0,2961. Hal ini dimungkinkan untuk menambahkan asumsi tren linear konstan non-nol ke model SES. Untuk melakukan ini, cukup tentukan model ARIMA dengan satu perbedaan nonseasonal dan MA (1) dengan konstan, yaitu model ARIMA (0,1,1) dengan konstan. Perkiraan jangka panjang kemudian akan memiliki tren yang sama dengan tren rata-rata yang diamati selama periode estimasi keseluruhan. Anda tidak dapat melakukan ini bersamaan dengan penyesuaian musiman, karena pilihan penyesuaian musiman dinonaktifkan saat jenis model disetel ke ARIMA. Namun, Anda dapat menambahkan tren eksponensial jangka panjang yang konstan ke model pemulusan eksponensial sederhana (dengan atau tanpa penyesuaian musiman) dengan menggunakan opsi penyesuaian inflasi dalam prosedur Peramalan. Kecepatan quotinflationquot (persentase pertumbuhan) yang sesuai per periode dapat diperkirakan sebagai koefisien kemiringan dalam model tren linier yang sesuai dengan data yang terkait dengan transformasi logaritma alami, atau dapat didasarkan pada informasi independen lain mengenai prospek pertumbuhan jangka panjang. . (Kembali ke atas halaman.) Browns Linear (yaitu ganda) Exponential Smoothing Model SMA dan model SES mengasumsikan bahwa tidak ada kecenderungan jenis apapun dalam data (yang biasanya OK atau setidaknya tidak terlalu buruk selama 1- Prakiraan ke depan saat data relatif bising), dan mereka dapat dimodifikasi untuk menggabungkan tren linier konstan seperti yang ditunjukkan di atas. Bagaimana dengan tren jangka pendek Jika suatu seri menampilkan tingkat pertumbuhan atau pola siklus yang berbeda yang menonjol dengan jelas terhadap kebisingan, dan jika ada kebutuhan untuk meramalkan lebih dari 1 periode di depan, maka perkiraan tren lokal mungkin juga terjadi. sebuah isu. Model pemulusan eksponensial sederhana dapat digeneralisasi untuk mendapatkan model pemulusan eksponensial linear (LES) yang menghitung perkiraan lokal tingkat dan kecenderungan. Model tren waktu yang paling sederhana adalah model pemulusan eksponensial Browns linier, yang menggunakan dua seri penghalusan berbeda yang berpusat pada berbagai titik waktu. Rumus peramalan didasarkan pada ekstrapolasi garis melalui dua pusat. (Versi yang lebih canggih dari model ini, Holt8217s, dibahas di bawah ini.) Bentuk aljabar model pemulusan eksponensial linier Brown8217s, seperti model pemulusan eksponensial sederhana, dapat dinyatakan dalam sejumlah bentuk yang berbeda namun setara. Bentuk quotstandardquot model ini biasanya dinyatakan sebagai berikut: Misalkan S menunjukkan deretan sumbu tunggal yang diperoleh dengan menerapkan smoothing eksponensial sederhana ke seri Y. Artinya, nilai S pada periode t diberikan oleh: (Ingat, bahwa dengan sederhana Eksponensial smoothing, ini akan menjadi perkiraan untuk Y pada periode t1.) Kemudian, biarkan Squot menunjukkan seri merapikan ganda yang diperoleh dengan menerapkan perataan eksponensial sederhana (menggunakan yang sama 945) ke seri S: Akhirnya, perkiraan untuk Y tk. Untuk setiap kgt1, diberikan oleh: Ini menghasilkan e 1 0 (yaitu menipu sedikit, dan membiarkan perkiraan pertama sama dengan pengamatan pertama yang sebenarnya), dan e 2 Y 2 8211 Y 1. Setelah itu prakiraan dihasilkan dengan menggunakan persamaan di atas. Ini menghasilkan nilai pas yang sama seperti rumus berdasarkan S dan S jika yang terakhir dimulai dengan menggunakan S 1 S 1 Y 1. Versi model ini digunakan pada halaman berikutnya yang menggambarkan kombinasi smoothing eksponensial dengan penyesuaian musiman. Model LES Linear Exponential Smoothing Brown8217s Ls menghitung perkiraan lokal tingkat dan tren dengan menghaluskan data baru-baru ini, namun kenyataan bahwa ia melakukannya dengan parameter pemulusan tunggal menempatkan batasan pada pola data yang dapat disesuaikan: tingkat dan tren Tidak diizinkan untuk bervariasi pada tingkat independen. Model LES Holt8217s membahas masalah ini dengan memasukkan dua konstanta pemulusan, satu untuk level dan satu untuk tren. Setiap saat, seperti pada model Brown8217s, ada perkiraan L t tingkat lokal dan perkiraan T t dari tren lokal. Di sini mereka dihitung secara rekursif dari nilai Y yang diamati pada waktu t dan perkiraan tingkat dan kecenderungan sebelumnya oleh dua persamaan yang menerapkan pemulusan eksponensial kepada mereka secara terpisah. Jika perkiraan tingkat dan tren pada waktu t-1 adalah L t82091 dan T t-1. Masing, maka perkiraan untuk Y tshy yang akan dilakukan pada waktu t-1 sama dengan L t-1 T t-1. Bila nilai aktual diamati, perkiraan tingkat yang diperbarui dihitung secara rekursif dengan menginterpolasi antara Y tshy dan ramalannya, L t-1 T t-1, dengan menggunakan bobot 945 dan 1- 945. Perubahan pada tingkat perkiraan, Yaitu L t 8209 L t82091. Bisa diartikan sebagai pengukuran yang bising pada tren pada waktu t. Perkiraan tren yang diperbarui kemudian dihitung secara rekursif dengan menginterpolasi antara L t 8209 L t82091 dan perkiraan sebelumnya dari tren, T t-1. Menggunakan bobot 946 dan 1-946: Interpretasi konstanta perataan tren 946 sama dengan konstanta pemulusan tingkat 945. Model dengan nilai kecil 946 beranggapan bahwa tren hanya berubah sangat lambat seiring berjalannya waktu, sementara model dengan Lebih besar 946 berasumsi bahwa itu berubah lebih cepat. Sebuah model dengan besar 946 percaya bahwa masa depan yang jauh sangat tidak pasti, karena kesalahan dalam estimasi tren menjadi sangat penting saat meramalkan lebih dari satu periode di masa depan. (Kembali ke atas halaman.) Konstanta pemulusan 945 dan 946 dapat diperkirakan dengan cara biasa dengan meminimalkan kesalahan kuadrat rata-rata dari perkiraan satu langkah ke depan. Bila ini dilakukan di Stategaf, perkiraannya adalah 945 0,3048 dan 946 0,008. Nilai yang sangat kecil dari 946 berarti bahwa model tersebut mengasumsikan perubahan sangat sedikit dalam tren dari satu periode ke periode berikutnya, jadi pada dasarnya model ini mencoba memperkirakan tren jangka panjang. Dengan analogi dengan pengertian umur rata-rata data yang digunakan dalam memperkirakan tingkat lokal seri, rata-rata usia data yang digunakan dalam memperkirakan tren lokal sebanding dengan 1 946, meskipun tidak sama persis dengan itu. . Dalam hal ini ternyata 10.006 125. Ini adalah jumlah yang sangat tepat karena keakuratan estimasi 946 tidak benar-benar ada 3 tempat desimal, namun urutannya sama besarnya dengan ukuran sampel 100, jadi Model ini rata-rata memiliki cukup banyak sejarah dalam memperkirakan tren. Plot perkiraan di bawah ini menunjukkan bahwa model LES memperkirakan tren lokal yang sedikit lebih besar di akhir rangkaian daripada tren konstan yang diperkirakan dalam model SEStrend. Juga, nilai estimasi 945 hampir sama dengan yang diperoleh dengan cara memasang model SES dengan atau tanpa tren, jadi model ini hampir sama. Sekarang, apakah ini terlihat seperti ramalan yang masuk akal untuk model yang seharusnya memperkirakan tren lokal Jika Anda memilih plot ini, sepertinya tren lokal telah berubah ke bawah pada akhir seri Apa yang telah terjadi Parameter model ini Telah diperkirakan dengan meminimalkan kesalahan kuadrat dari perkiraan satu langkah ke depan, bukan perkiraan jangka panjang, dalam hal ini tren tidak menghasilkan banyak perbedaan. Jika semua yang Anda lihat adalah kesalahan 1 langkah maju, Anda tidak melihat gambaran tren yang lebih besar mengenai (katakanlah) 10 atau 20 periode. Agar model ini lebih selaras dengan ekstrapolasi data bola mata kami, kami dapat secara manual menyesuaikan konstanta perataan tren sehingga menggunakan garis dasar yang lebih pendek untuk estimasi tren. Misalnya, jika kita memilih menetapkan 946 0,1, maka usia rata-rata data yang digunakan dalam memperkirakan tren lokal adalah 10 periode, yang berarti bahwa kita rata-rata mengalami trend selama 20 periode terakhir. Berikut ini perkiraan plot perkiraan jika kita menetapkan 946 0,1 sambil mempertahankan 945 0,3. Ini terlihat sangat masuk akal untuk seri ini, meskipun mungkin berbahaya untuk memperkirakan tren ini lebih dari 10 periode di masa depan. Bagaimana dengan statistik kesalahan Berikut adalah perbandingan model untuk kedua model yang ditunjukkan di atas dan juga tiga model SES. Nilai optimal 945. Untuk model SES adalah sekitar 0,3, namun hasil yang serupa (dengan sedikit atau kurang responsif, masing-masing) diperoleh dengan 0,5 dan 0,2. (A) Holts linear exp. Smoothing dengan alpha 0.3048 dan beta 0.008 (B) Holts linear exp. Smoothing dengan alpha 0.3 dan beta 0,1 (C) Smoothing eksponensial sederhana dengan alpha 0.5 (D) Smoothing eksponensial sederhana dengan alpha 0.3 (E) Smoothing eksponensial sederhana dengan alpha 0.2 Statistik mereka hampir identik, jadi kita benar-benar tidak dapat membuat pilihan berdasarkan dasar Kesalahan perkiraan 1 langkah di depan sampel data. Kita harus kembali pada pertimbangan lain. Jika kita sangat percaya bahwa masuk akal untuk mendasarkan perkiraan tren saat ini pada apa yang telah terjadi selama 20 periode terakhir, kita dapat membuat kasus untuk model LES dengan 945 0,3 dan 946 0,1. Jika kita ingin bersikap agnostik tentang apakah ada tren lokal, maka salah satu model SES mungkin akan lebih mudah dijelaskan dan juga akan memberikan prakiraan tengah jalan untuk periode 5 atau 10 berikutnya. (Apa yang dimaksud dengan tren-ekstrapolasi paling baik: Bukti empiris horizontal atau linier menunjukkan bahwa, jika data telah disesuaikan (jika perlu) untuk inflasi, maka mungkin tidak bijaksana untuk melakukan ekstrapolasi linier jangka pendek Tren sangat jauh ke depan. Tren yang terbukti hari ini dapat mengendur di masa depan karena beragam penyebabnya seperti keusangan produk, persaingan yang meningkat, dan kemerosotan siklis atau kenaikan di industri. Untuk alasan ini, perataan eksponensial sederhana sering kali melakukan out-of-sample yang lebih baik daripada yang mungkin diharapkan, terlepas dari ekstrapolasi naluriah kuotriotipnya. Modifikasi tren yang teredam dari model pemulusan eksponensial linier juga sering digunakan dalam praktik untuk memperkenalkan catatan konservatisme ke dalam proyeksi trennya. Model LES teredam-tren dapat diimplementasikan sebagai kasus khusus model ARIMA, khususnya model ARIMA (1,1,2). Hal ini dimungkinkan untuk menghitung interval kepercayaan sekitar perkiraan jangka panjang yang dihasilkan oleh model pemulusan eksponensial, dengan menganggapnya sebagai kasus khusus model ARIMA. (Hati-hati: tidak semua perangkat lunak menghitung interval kepercayaan untuk model ini dengan benar.) Lebar interval kepercayaan bergantung pada (i) kesalahan RMS pada model, (ii) jenis smoothing (sederhana atau linier) (iii) nilai (S) dari konstanta pemulusan (s) dan (iv) jumlah periode di depan yang Anda peramalkan. Secara umum, interval menyebar lebih cepat saat 945 semakin besar dalam model SES dan menyebar jauh lebih cepat bila perataan linier dan bukan perataan sederhana digunakan. Topik ini dibahas lebih lanjut di bagian model ARIMA dari catatan. (Kembali ke bagian atas halaman.)

No comments:

Post a Comment