Thursday 23 November 2017

Wyśrodkowane średnie stata


Ta struktura danych jest zupełnie nieodpowiednia. Zakładając, że identyfikator identyfikatora trzeba przekształcić. na przykład Wtedy średnia ruchoma jest prosta. Użyj tssmooth lub po prostu wygeneruj. na przykład Więcej na temat tego, dlaczego struktura danych jest dość nieadekwatna: nie tylko obliczanie średniej ruchomej wymagało pętli (niekoniecznie obejmującej egen), ale byłoby tworzyć kilka nowych dodatkowych zmiennych. Użycie tych w jakiejkolwiek późniejszej analizie byłoby gdzieś między niewygodne i niemożliwe. EDIT Ill dać pętli próbki, a nie ruszając się z mojego stanowiska, że ​​jest słaba technika. Nie widzę powodu związanego z konwencją nazewnictwa, według której P1947 jest średnią w latach 1943-1945 zakładam, że to tylko typówka. Załóżmy, że mamy dane na lata 1913-2017. Przez trzy lata stracimy rok na każdym końcu. To mogło być napisane bardziej zwięźle, kosztem makr makr w makrach. Używanie nierównych ciężarów jest łatwe, jak powyżej. Jedynym powodem używania egen jest to, że nie zrezygnuje, jeśli istnieją spory, które powyższe zrobią. W kwestii kompletności należy zwrócić uwagę na to, że łatwo jest radzić sobie z misjami bez uciekania się do egen. i mianownik Jeśli brakuje wszystkich wartości, zmniejsza się do 00 lub jest brakuje. W przeciwnym razie, jeśli brakuje jakiejś wartości, dodajemy zero do licznika i 0 do mianownika, co jest takie samo, jak ignorowanie. Oczywiście kod jest dopuszczalny jak powyżej dla średnich 3 lat, ale w tym przypadku lub dla uśrednienia w ciągu kilku lat, zastąpimy linie powyżej przez pętlę, która jest co egen does. When obliczania bieżącej średniej ruchomej, wprowadzenie Średnia w średnim okresie czasu ma znaczenie W poprzednim przykładzie obliczono średnią z pierwszych trzech okresów czasu i umieściliśmy ją obok okresu 3. Możemy umieścić średnią w środku przedziału czasowego trzech okresów, obok okresu 2. To działa dobrze z nieparzystymi okresami, ale nie tak dobre nawet dla okresów czasu. Więc gdzie umieścimy pierwszą średnią ruchową, jeśli M 4 Technicznie, średnia ruchoma spadnie poniżej 2,5, 3,5. Aby uniknąć tego problemu, wygładzamy macierze przy użyciu M 2. Dzięki temu wygładzamy wygładzone wartości Jeśli przeanalizujemy parzystą liczbę terminów, musimy wygładzić wygładzone wartości Poniższa tabela przedstawia wyniki przy użyciu M 4. Średnie ruchy Średnie ruchy Z konwencjonalnym zestawy danych, średnia wartość jest często pierwszą i jedną z najbardziej użytecznych statystyk podsumowania do obliczania. Jeśli dane są w formie szeregu czasowego, to jest to przydatna metoda, ale nie odzwierciedlająca dynamicznego charakteru danych. Często przydatne są średnie wartości obliczone w odniesieniu do okresów zwolnionych, poprzedzających bieżący okres lub wycentrowanych na bieżącym okresie. Ponieważ takie średnie wartości zmieniają się lub poruszają, ponieważ bieżący okres przemieszcza się od czasu t2, t3 itd., Są one znane jako średnia ruchoma (Mas). Prosta średnia ruchoma jest (zazwyczaj) średnią nieważoną k poprzednich wartości. Średnia średnica ruchoma jest zasadniczo taka sama jak średnia średniej ruchomej, ale ze składkami do średniej ważonej ich bliskością do aktualnego czasu. Ponieważ nie ma jednego, ale całej serii średnich kroczących w danej serii, zestaw Mas może być wyrysowany na wykresach, analizowany jako seria i używany w modelowaniu i prognozowaniu. Modele mogą być skonstruowane przy użyciu średnich ruchomej i są one znane jako modele MA. Jeśli takie modele są połączone z modelami autoregresji (AR), powstałe moduły kompozytowe są znane jako modele ARMA lub ARIMA (I jest zintegrowany). Proste średnie ruchome Ponieważ serie czasowe mogą być traktowane jako zbiór wartości, t 1,2,3,4, n można obliczyć średnią z tych wartości. Jeśli przyjmiemy, że n jest dość duże i wybieramy liczbę całkowitą k, która jest znacznie mniejsza niż n. możemy obliczyć zestaw średnich bloków lub proste średnie ruchome (rzędu k): każdy środek reprezentuje średnią wartości danych w przedziale k obserwacji. Zauważmy, że pierwszą możliwą macierz rzędu k gt0 jest taka, że ​​dla t k. Ogólniej możemy upuścić dodatkowy indeks dolny w powyższych wyrażeniach i napisać: Stwierdza się, że średnia szacowana w czasie t jest zwykłą średnią obserwowanej wartości w czasie t oraz poprzedzającym krokiem k-1. Jeśli stosuje się odważniki, które zmniejszają wkład obserwacji, które są dalekie w czasie, średnia średniej ruchomej jest mnożona wykładniczo. Średnie ruchome są często wykorzystywane jako forma prognozowania, przy czym szacunkowa wartość dla serii w czasie t 1, S t1. jest pobierana jako MA przez okres do i włącznie z czasem t. na przykład dzisiejsze szacunki opierają się na średniej z wcześniej zapisanych wartości do i włącznie z wczoraj (dla danych dziennych). Proste średnie ruchome można postrzegać jako formę wygładzania. W przedstawionym poniżej przykładzie zestaw danych dotyczących zanieczyszczenia powietrza przedstawiony we wprowadzeniu do tego tematu został wzbogacony o linię 7-dniowej średniej ruchomej (MA), pokazanej na czerwono. Jak można zauważyć, linia MA wygładza szczyty i koryta w danych i może być bardzo pomocna w identyfikacji trendów. Standardowa formuła obliczania do przodu oznacza, że ​​pierwsze punkty danych k -1 nie mają wartości MA, ale później obliczenia rozciągają się do końcowego punktu danych w serii. Średnie wartości dzienne PM10, źródło Greenwich: London Air Quality Network, londonair. org. uk Jednym z powodów obliczania prostych średnic ruchu w sposób opisany jest fakt, że umożliwia obliczanie wartości we wszystkich przedziałach czasowych od czasu tk aż do chwili obecnej, a jako nowy pomiar jest uzyskiwany w czasie t1, można dodać do zestawu już obliczony współczynnik MA dla czasu t1. Zapewnia to prostą procedurę dla dynamicznych zestawów danych. Istnieją jednak pewne problemy z tym podejściem. Rozumie się, że średnia wartość w ciągu ostatnich trzech okresów, powiedzmy, powinna znajdować się w czasie t -1, a nie w czasie t. a dla MA na parzystej liczbie okresów może być ona umieszczona w połowie punktu między dwoma przedziałami czasowymi. Rozwiązaniem tego problemu jest zastosowanie wyśrodkowanych obliczeń MA, w których MA w czasie t jest średnią symetrycznego zestawu wartości wokół t. Pomimo jej oczywistych zasług, podejście to nie jest powszechnie stosowane, ponieważ wymaga, aby dane były dostępne dla przyszłych wydarzeń, co może nie mieć miejsca. W przypadkach, w których analiza jest w całości z istniejącej serii, korzystne może być użycie środkowego Mas. Proste średnie ruchome można uznać za formę wygładzania, usuwania niektórych elementów o wysokiej częstotliwości w serii czasowej i podkreślania trendów w sposób podobny do ogólnego pojęcia filtrowania cyfrowego (ale nie usuwania). Rzeczywiście, średnie ruchome są formą filtru liniowego. Możliwe jest zastosowanie średniej ruchomej obliczeniowej do serii, która została już wygładzona, tzn. Wygładzanie lub filtrowanie już wygładzonej serii. Na przykład, ze średnią ruchoma rzędu 2, możemy ją uznać za obliczoną przy użyciu odważników, więc MA przy x 2 0,5 x 1 0,5 x 2. Podobnie, MA przy x 3 0,5 x 2 0,5 x 3. Jeśli zastosuj drugi poziom wygładzania lub filtrowania, mamy 0.5 x 2 0.5 x 3 0.5 (0.5 x 1 0.5 x 2) 0.5 (0.5 x 2 0.5 x 3) 0.25 x 1 0.5 x 2 0.25 x 3 tj. filtracja dwustopniowa proces (lub splot) wytworzył zmienną ważoną symetryczną średnią ruchliwą, z odważnikami. Wiele splotów może wytwarzać dość złożone średnie ruchome ważone, z których niektóre zostały znalezione szczególnie w specjalistycznych dziedzinach, na przykład w kalkulacjach ubezpieczenia na życie. Średnie ruchome mogą być użyte do usunięcia okresowych efektów, jeśli są obliczane jako długość znanej. Na przykład z miesięcznymi zmianami sezonowymi można często usunąć (jeśli jest to cel), stosując symetryczną 12-miesięczną średnią ruchliwą ze wszystkimi ważonymi miesiącami, z wyjątkiem pierwszego i ostatniego ważonego przez 12. To dlatego, że nie będzie 13 miesięcy w modelu symetrycznym (aktualny czas, t. - 6 miesięcy). Całkowita jest podzielona przez 12. Podobne procedury można przyjąć dla dowolnie zdefiniowanych okresów. Średnie ruchome (EWMA) Przy użyciu prostej średniej ruchomej: wszystkie obserwacje są równie ważone. Jeśli wezwaliśmy te równe ciężary, alfa t. każda z wag wagi równałaby 1 k. więc suma wagi wynosiła 1, a formuła byłaby: widzieliśmy już, że wiele zastosowań tego procesu skutkuje różnymi obciążeniami. Przy średniej ważonej średniej ruchomej udział średniej z obserwowanych obserwacji, które są bardziej usuwane w czasie, jest ograniczony, podkreślając tym samym ostatnie wydarzenia (lokalnie). Zasadniczo wprowadza się parametr wygładzania, 0lt alfa lt1, a wzorcowa poprawka do: Symetryczna wersja tej formuły będzie miała postać: Jeśli wagi w modelu symetrycznym są wybrane jako warunki warunków ekspansji dwumianowej, (1212) 2q. sumują się do 1, a gdy q stanie się duży, przybliżą rozkład normalny. Jest to forma ważenia jądra, z funkcją Binomial działającą jako funkcja jądra. Konwolucja dwustopniowa opisana w poprzednim podrozdziale jest dokładnie tym układem, przy czym q 1 daje ciężar. W wyrównywaniu wykładniczym konieczne jest użycie zestawu ciężarów, które sumują się na 1, a geometrycznie zmniejszają rozmiar. Stosowane masy mają typowo formę: Aby wykazać, że te wagi sumują się na 1, rozważyć rozszerzenie 1 jako szereg. Możemy zapisywać i rozszerzać wyrażenie w nawiasach przy użyciu formuły dwumianowej (1- x) gdzie x (1-) i p -1, co daje: Daje to formę ważonej średniej ruchomej postaci: To sumy można zapisać jako relację nawrotową: upraszcza to obliczenie znacznie i unika problemu, że system ważenia powinno być ściśle nieskończone, aby wagi sumowały się do 1 (w przypadku małych wartości alfa zazwyczaj nie jest to przypadek). Notacja stosowana przez różnych autorów różni się. Niektórzy używają litery S, aby wskazać, że formuła jest w zasadzie zmienną wygładzoną i napisać: podczas gdy literatura teorii sterowania często używa raczej Z, a nie S do wartości wykładniczych ważonych lub wygładzonych (patrz, na przykład, Lucas i Saccucci, 1990, LUC1 , oraz stronę internetową NIST, aby uzyskać więcej szczegółów i sprawdzonych przykładów). Powyższe wzorce wynikają z pracy Robertsa (1959, ROB1), ale Hunter (1986, HUN1) używa wyrażenia w postaci: co może być bardziej odpowiednie do użycia w niektórych procedurach kontrolnych. W przypadku alfa 1 średnie oszacowanie jest po prostu wartością zmierzoną (lub wartością poprzedniego elementu danych). Z wartością 0.5 szacunkiem jest prosta średnia ruchoma pomiarów bieżących i poprzednich. W modelach prognozowania wartość, S t. jest często wykorzystywana jako wartość szacunkowa lub prognoza dla następnego okresu czasu, tzn. jako przybliżenie dla x w czasie t1. Mamy więc: Pokazuje to, że wartość prognozowana w czasie t1 jest kombinacją poprzedniej ważonej średniej ruchomej plus składnik reprezentujący ważony błąd predykcji, epsilon. w czasie t. Przy założeniu serii czasów i podaniu prognozy wymagana jest wartość alfa. Można to oszacować na podstawie istniejących danych, oceniając sumę kwadratowych błędów predykcyjnych uzyskać z różnymi wartościami alfa dla każdej t 2,3. ustalając, że pierwsze oszacowanie jest pierwszą obserwowaną wartością danych, x 1. W zastosowaniach kontrolnych wartość alfa jest ważna w tym, że jest stosowana przy określaniu górnych i dolnych limitów kontrolnych, i ma wpływ na przeciętną długość przebiegu (ARL) zanim zostaną przekroczone te granice kontroli (przy założeniu, że szereg czasowy reprezentuje zestaw losowych, identycznie rozmieszczonych niezależnych zmiennych o wspólnej wariancji). W tych okolicznościach wariancja statystycznej kontroli: (Lucas i Saccucci, 1990): limity kontrolne są zwykle ustalane jako stałe wielokrotności tej asymptotycznej wariancji, np. - 3 razy odchylenie standardowe. Jeśli przyjmuje się, że na przykład alfa 0.25 i monitorowane dane mają rozkład normalny, N (0,1), podczas kontroli, granice kontrolne wynoszą - 1,134, a proces osiągnie jeden lub inny limit w 500 krokach średnio. Lucas i Saccucci (1990 LUC1) uzyskują ARL dla szerokiego zakresu wartości alfa i różnymi założeniami, stosując procedury łańcuchowe Markowa. Są to tablice wyników, w tym zapewnienie ARLs, gdy średnia z procesu kontroli została przesunięta o kilka wielokrotności odchylenia standardowego. Na przykład, z przesunięciem 0.5 z alfa 0.25, ARL jest krótszy niż 50 kroków czasowych. Podejścia opisane powyżej są znane jako wygładzanie jednoelementowe. ponieważ procedury są stosowane raz do szeregów czasowych, a następnie przeprowadzane są analizy lub procesy kontrolne w wynikowym wygładzonym zbiorze danych. Jeśli zestaw danych zawiera trendy i elementy sezonowe, można zastosować wyrównywanie wykładnicze dwustopniowe lub trzystopniowe jako narzędzie do usuwania (jawnie modelowania) tych efektów (zobacz dalej sekcja Prognozowanie poniżej i przykład pracy NIST). CHA1 Chatfield C (1975) Analiza serii czasowych: teoria i praktyka. Chapman i Hall, Londyn HUN1 Hunter J S (1986) Średnia ważona wykładniczą średnią ruchoma. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Przekroczone średnimi wartościami średniej ruchome schematy kontroli: właściwości i ulepszenia. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Testy wykresów kontrolnych oparte na geometrycznych średnich kroczących. Technometrics, 1, 239-250Stata: Analiza danych i oprogramowanie statystyczne Nicholas J. Cox, Uniwersytet w Durham, Wielka Brytania Christopher Baum, Boston College egen, ma () i jego ograniczenia Statarsquos najbardziej oczywistym dowodem obliczania średnich kroczących jest funkcja ma () egen. Biorąc pod uwagę wyrażenie, tworzy ona - średnią ruchową średnią tej wypowiedzi. Domyślnie przyjmuje się, że 3. musi być nieparzysta. Jednakże, jak wskazuje ręcznie wpis, np. Ma () nie może być łączony z listą:. i, z tego tylko powodu, nie ma zastosowania do danych paneli. W każdym razie znajduje się poza zestawem komend napisanych specjalnie dla serii czasowych, patrz seria czasowa, aby uzyskać szczegółowe informacje. Metody alternatywne Aby obliczyć średnie ruchome danych panelowych, istnieją co najmniej dwie możliwości. Oba te elementy uzależnione są od zestawu danych, który został uprzednio zresetowany. To bardzo warto robić: nie tylko możesz zaoszczędzić sobie na wielokrotne określanie zmiennej czasowej panelu i zmiennej, ale Stata zachowuje się elegancko, biorąc pod uwagę luki w danych. 1. Napisz własną definicję używając wygenerowania Używając operatorów z serii czasowych, takich jak L. i F. podaj definicję średniej ruchomej jako argumentu generowania instrukcji. Jeśli to zrobisz, naturalnie nie ograniczasz się do średnio ważonych (nie ważonych) średnic ruchu, obliczonych przez egen, ma (). Na przykład średnio ważone średnie ruchome trzy-okresowe byłyby podane przez i niektóre ciężary można łatwo określić: Oczywiście możesz określić wyrażenie takie jak log (myvar) zamiast nazwy zmiennej, na przykład myvar. Jedną wielką zaletą tego podejścia jest to, że Stata automatycznie robi właściwą rzecz dla danych paneli: wartości początkowe i opóźnione są opracowywane w panelach, podobnie jak logika mówi, że powinny być. Największą wadą jest to, że linia komend może być dość długa, jeśli średnia ruchoma obejmuje kilka terminów. Innym przykładem jest jednostronna średnia ruchoma oparta jedynie na poprzednich wartościach. Może to być użyteczne w celu wygenerowania adaptacyjnego oczekiwania co zmienna będzie oparta wyłącznie na dotychczasowej informacji: co można było przewidzieć na obecny okres w oparciu o poprzednie cztery wartości przy użyciu stałego schematu ważenia (opóźnienie w skali A 4 może być szczególnie używanych w kwartalnych terminach.) 2. Użyj egen, filter () z SSC Użyj filtra funkcji egen () egenmore () z pakietu egenmore na SSC. W Stacie 7 (zaktualizowany po 14 listopada 2001 r.) Można zainstalować ten pakiet, po którym pomoc np. Wskazuje na szczegóły filtru (). Powyższe przykłady byłyby renderowane (w tym porównaniu podejście generowane jest być może bardziej przezroczyste, ale na chwilę zobaczymy przykład odwrotny). Laga jest numeracją. prowadzi do ujemnych opóźnień: w tym przypadku -11 rozciąga się na -1 0 1 lub prowadzi 1, zwłokę 0, opóźnia 1. Współczynnik cofania, kolejna numlista, pomnożenie odpowiednich opóźnionych lub prowadzących elementów: w tym przypadku te elementy to F1.myvar . myvar i L1.myvar. Efektem normalizacji jest skalowanie każdego współczynnika sumą współczynników tak, aby współczynnik (1 1 1) normalizować jest równoważny współczynnikom 13 13 13 i coef (1 2 1) normalizować jest równoważny współczynnikom 14 12 14 Musisz określić nie tylko opóźnienia, ale i współczynniki. Ponieważ egen, ma () dostarcza równie ważonej sprawy, głównym powodem egen, filter () jest wspieranie nierównej wagi sprawy, dla której musisz określić współczynniki. Można również powiedzieć, że zobowiązanie użytkowników do określenia współczynników jest niewielką dodatkową presją na ich myślenie o tym, jakie współczynniki chcą. Głównym uzasadnieniem dla równych ciężarów jest, jak przypuszczamy, prostota, ale równe wagi mają złe właściwości w domenie częstotliwości, wspomnieć tylko o jednym. Trzeci przykład powyżej może być albo z nich tak skomplikowany jak podejście generujące. Są przypadki, w których egen, filter () daje prostszy formułowanie niż generowanie. Jeśli chcesz, aby 9-krotny filtr dwumianowy okazał się użyteczny, wygląda na to, że może być mniej straszniejszy niż i łatwiejszy w użyciu niż, podobnie jak w przypadku generowania podejścia, egen, filter () działa poprawnie z danymi panelu. W rzeczywistości, jak wspomniano powyżej, zależy to od zestawu danych, który został wcześniej zresetowany. Graficzna wskazówka Po obliczeniu średnich kroczących prawdopodobnie będzie trzeba spojrzeć na wykres. Polecenie napisane przez użytkownika tsgraph jest inteligentne w przypadku zestawów danych tsset. Zainstaluj go w aktualnej wersji Stata 7 przez ssc inst tsgraph. A co z podziałem na jeśli żadne z powyższych przykładów nie wykorzystuje się w przypadku ograniczeń. W rzeczywistości egen, ma () nie zezwala, jeśli ma być określony. Czasami ludzie chcą używać, jeśli przy obliczaniu średnich ruchomej, ale jego wykorzystanie jest nieco bardziej skomplikowane niż zwykle. Czego oczekiwałeś od średniej ruchomej, obliczonej jeśli. Zidentyfikujmy dwie możliwości: Słaba interpretacja: nie chcę widzieć żadnych wyników dla wykluczonych obserwacji. Mocna interpretacja: nie chcę nawet używać wartości dla wykluczonych obserwacji. Oto konkretny przykład. Załóżmy, że w wyniku pewnych warunków, obserwuje się 1-42, ale nie obserwuje się obserwacji 43. Jednak średnia ruchoma wynosząca 42 będzie zależeć między innymi od wartości obserwacji 43, jeśli średnia rozciąga się do tyłu i do przodu i ma długość co najmniej 3, a w pewnych okolicznościach podobnie będzie zależała od niektórych obserwacji od pewnego czasu. Domyślamy, że większość ludzi chętnie skorzysta z słabej interpretacji, ale czy to jest poprawne, egen, filter () nie popiera, jeśli takowe. Zawsze możesz zignorować to, czego nie chcesz, a nawet ustaw niepożądane wartości, aby później brakować, używając zamiennika. Notatka o brakujących wynikach na końcach serii Ponieważ średnie ruchome są funkcjami opóźnień i opóźnień, np. Ma () powoduje brak tam, gdzie na początku i na końcu serii nie występuje opóźnienie i opóźnienia. Opcja nomiss wymusza obliczenie krótszych, nieokrążonych średnic ruchu dla ogonów. W przeciwieństwie do tego, ani wygenerować, ani egen, filtr () czy, czy nie, nic specjalnego, aby uniknąć brakujących wyników. Jeśli brakuje jakiejkolwiek wartości potrzebnej do obliczenia, wynik tego nie ma. Decyzja o tym, czy i jakie operacje korekcyjne są wymagane w przypadku takich obserwacji, przypuszczalnie po zapoznaniu się z zestawem danych i rozważeniu jakiejkolwiek naukowej nauki, którą można znieść.

No comments:

Post a Comment