Satunnaisotoksen luominen R:llä

muu

Tieteen alalla tehdään monia kokeita, joita on verrattava tilastollisen testin avulla, jotta nähdään, onko saatu tulos todella merkittävä ja uskottava. Kun tilastoa on verrattu kriittiseen arvoon ja johtopäätös kirjattu, oletamme, että olemme valmiit.

Tilastollisen päättelyn peruskoulutus keskittää kaiken huomion kontrastiin, mutta jos haluamme mennä syvemmälle, huomaamme, että olennainen osa on otoksen saaminen ja laatu sekä datan typologia.

Otoksen saamiseksi meillä on ensin oltava populaatio. On olemassa monimutkaisia ​​tekniikoita sen määrittämiseksi, onko otos tarpeeksi edustava käyttääkseen sitä populaation sijaan. Perustesteissä käsittelemme näytettä sellaisena kuin se on annettu, emmekä kyseenalaista, miten tieto on saatu.

Ja miten saamme näytteen? Menemmekö ulos ja kysymme kaikilta tapaamiamme? Ja jos teemme kyselyn, kuinka teemme tilastollisen analyysin ihmisten vastauksista? Ja talousteorian perusteella, kuinka löydän matemaattisen mallin, joka sopii parhaiten dataan? Miten? Mitä sanot? Entä jos tietojeni välinen suhde ei ole lineaarinen, en voi käyttää pienimmän neliösumman estimaattoria? Ja ennen kaikkea, pitääkö minun imputoida tiedot, jos näytteestä puuttuu tietoja tai siinä on virheitä? Voi luoja kuinka monimutkaista...

Todellakin, kyllä, on olemassa maailma, joka ylittää ne utopistiset ja yleiset tapaukset, joita meille annetaan yliopistossa, ja on vaikea sopeutua erityistapauksiin, joissa on edellisessä kappaleessa kuvatun kaltaisia ​​ongelmia. Emme saa vaipua epätoivoon, sillä kaikki esiin tulevat epäilykset on ratkaistu ja ratkaisu on olemassa.

Voimme kuitenkin luopua kaikista aikaisemmista ongelmista ja luoda itsellemme tietojoukon, jolla on haluamamme erityispiirteet ja mitta: deterministinen tai satunnainen, aukkojen kanssa tai ilman, negatiiviset tai positiiviset arvot, laadulliset tai kvantitatiiviset tiedot ...

Tilastoohjelman R avulla voimme päästää mielikuvituksemme valloilleen ja luoda niin monta otosta kuin haluamme.

tavoite

Tässä artikkelissa keskitymme luomaan satunnaisen otoksen R Studio -ohjelmalla ja säästämään meidät ihmisten jahtaamiselta kadulla tai tietojen imputointipäänsärkyltä.

Määritelmä

Satunnaisotantaan laskennallisesti muodostetaan tietomäärä, jonka analyytikko haluaa luoda, kun hän tietää jakauman, jota kyseiset tiedot seuraavat.

Toisin sanoen tilastoohjelmia käyttämällä voimme unohtaa laskea kaavat käsin ja kärsiä jos teemme virheen missä tahansa vaiheessa. Meidän on vain tiedettävä, mitä meillä on ja mitä haluamme.

Lähestyä

Ennen ohjelman avaamista meidän on esitettävä ongelma päinvastaisella tavalla kuin olemme tottuneet esittämään. Toisin sanoen olemme tottuneet etsimään datajoukon ja esittämään niitä nähdäksemme, mitä jakaumaa ne noudattavat. Näytteen luomiseksi meidän on suoritettava käänteinen prosessi.

Ensimmäinen askel olisi asentaa R-ohjelma, mieluiten R Studio, koska suunnittelu on parempi ja se on paljon visuaalisempi. Täällä työskentelemme R Studion kanssa.

  1. Avaamme R Studion.
  2. Avaamme uuden skriptin (New Script).
  3. Asenna tilastokirjasto, jotta voit käyttää tilastofunktioita ja satunnaislukujen generointia.
  4. Ohje ("dnorm") -toiminto. Tämän toiminnon avulla voimme löytää tietyn matemaattisen kaavan kirjastoista ja antaa meille tietoa hyödyllisyydestä, parametreista, tuloksista, viittauksista ja jopa esimerkkejä suosituimmissa tapauksissa.
R "help"-toiminnon tulos

5. Laskeaksemme satunnaisotoksen normaalijakaumasta meidän on tiedettävä sen näytteenottoparametrit eli sen keskiarvo ja keskihajonta. Jos generoisimme otoksen t-Studentin avulla, meille riittäisi vain tietää vapausasteet. Esimerkki, jonka teemme, voidaan tehdä millä tahansa jakaumalla, kunhan kirjasto on asennettu tietokoneeseen ja arvot on määritetty jakauman tiheysfunktion laskemiseen tarvittaville parametreille.

Tässä on joitain R-jakaumia:

Joidenkin R:n todennäköisyysjakaumien funktiot.

6. Simuloidaan näytettä, jossa havaintojen taajuus voi olla riittävän lähellä normaalijakaumaa. Koska työskentelemme normaalijakauman kanssa, meidän on määritettävä sen keskiarvo ja sen varianssi. Oletetaan, että keskiarvo on 9 ja varianssi 2,25. Määritämme muuttujalle X satunnaislukujen generoinnin.

TÄRKEÄÄ: R ymmärtää normaalijakauman parametrit keskiarvona ja keskihajonnana, joten jos halutaan saada varianssi 2,25, meidän on kirjoitettava R:ksi 1,5. Näin ollen 1,5 ^ 2 = 2,25.

Esimerkkisimulaatio normaalijakaumasta

7. Saadaksemme otoksen, jossa on satunnaislukuja, jotka noudattavat normaalijakaumaa, on käytettävä kaavaa rnorm. Englannista r vastaa satunnainen mikä tarkoittaa satunnaista ja normi on yhtä suuri normaalijakauma, eli normaalijakauma. Nämä tiedot näkyvät näytön vasemmassa alakulmassa, kun suoritamme ohje ("dnorm") -komennon.

R "help"-toiminnon tulos

Oletusarvoisesti R ymmärtää, että jos emme määritä keskiarvoa tai varianssia, se antaa keskiarvolle arvon 0 ja varianssille 1. Toisin sanoen, käsittelet jakaumaa normaalina normaalijakaumana.

8. Kun näyte on laskettu, jää vain katsomaan, olemmeko tehneet sen hyvin. Eli R näyttää meille muuttujan X arvot. Meidän täytyy vain laittaa x skriptiin ja tiedot tulevat näkyviin. Näemme, että näytetiedot näkyvät luvun 9 (keskiarvo) ympärillä pienellä 1,5 %:n erolla (poikkeama).

Tulos: olemme luoneet satunnaisotoksen normaalijakaumasta.

Vasemmalla olevat numerot hakasulkeissa [] tarkoittavat numeron sijaintia niiden oikealla puolella. Se on menetelmä, jota R käyttää saadakseen yleiskuvan kullekin riville kuuluvien tietojen määrästä.

Tunnisteet:  Kolumbia markkinoilla USA 

Mielenkiintoisia Artikkeleita

add
close

Suosittu Viestiä

talous-sanakirja

Martingaali

kirjanpito

Advance

talous-sanakirja

Tarjoustoiminto