Egyszerű lineáris regresszió.  A lineáris regresszió alapjai

Egyszerű lineáris regresszió. A lineáris regresszió alapjai

A korreláció és a regresszió fogalma közvetlenül összefügg. Számos általános számítási technika létezik a korrelációs és regressziós elemzésben. A jelenségek és folyamatok közötti ok-okozati összefüggések azonosítására szolgálnak. Ha azonban korrelációs elemzés lehetővé teszi a sztochasztikus kapcsolat erősségének és irányának becslését, akkor regresszió analízis- a függőség egy formája is.

A regresszió lehet:

a) a jelenségek (változók) számától függően:

Egyszerű (regresszió két változó között);

Többszörös (regresszió a függő változó (y) és több magyarázó változó (x1, x2...xn) között;

b) formától függően:

Lineáris (lineáris függvénnyel jelenik meg, és a vizsgált változók között lineáris kapcsolatok vannak);

Nemlineáris (nemlineáris függvénnyel megjelenítve; a vizsgált változók közötti kapcsolat nemlineáris);

c) az ellenértékben szereplő változók közötti kapcsolat jellege szerint:

Pozitív (a magyarázó változó értékének növekedése a függő változó értékének növekedéséhez vezet és fordítva);

Negatív (a magyarázó változó értékének növekedésével a magyarázott változó értéke csökken);

d) típus szerint:

Közvetlen (ebben az esetben az ok közvetlen hatással van a hatásra, azaz a függő és a magyarázó változók közvetlenül kapcsolódnak egymáshoz);

Közvetett (a magyarázó változó egy harmadik vagy számos más változón keresztül közvetett hatással van a függő változóra);

Hamis (nonszensz regresszió) - felmerülhet a vizsgált folyamatok és jelenségek felületes és formális megközelítéséből. Az értelmetlenre példa egy regresszió, amely összefüggést teremt a hazánkban elfogyasztott alkohol mennyiségének csökkenése és a mosópor értékesítésének csökkenése között.

Vezetéskor regresszió analízis A következő fő feladatokat oldják meg:

1. A függőség formájának meghatározása.

2. A regressziós függvény definíciója. Ehhez használjon egy vagy olyan típusú matematikai egyenletet, amely lehetővé teszi először is, hogy általános trend a függő változó változásait, másodszor pedig kiszámítja a magyarázó változó (vagy több változó) hatását a függő változóra.

3. A függő változó ismeretlen értékeinek becslése. Az így kapott matematikai összefüggés (regressziós egyenlet) lehetővé teszi a függő változó értékének meghatározását mind a magyarázó változók meghatározott értékeinek intervallumán belül, mind azon túl. Ez utóbbi esetben a regressziós elemzés hasznos eszköz a társadalmi-gazdasági folyamatok és jelenségek változásainak előrejelzésében (feltéve, hogy a meglévő trendeket és kapcsolatokat fenntartják). Az előrejelzés végrehajtásának időtartama általában nem haladhatja meg a fele annak az időtartamnak, amely alatt a kezdeti mutatók megfigyeléseit elvégezték. Lehetőség van passzív előrejelzés, az extrapolációs problémát megoldó és aktív előrejelzés végrehajtására is, a jól ismert „ha..., akkor” séma szerint érvelve, és különböző értékeket behelyettesítve egy vagy több magyarázó regressziós változóba. .



Mert regressziós konstrukció egy speciális módszer, az úgynevezett módszer legkisebb négyzetek . Ennek a módszernek vannak előnyei a többi simítási módszerhez képest: a szükséges paraméterek viszonylag egyszerű matematikai meghatározása és valószínűségi szempontból jó elméleti igazolás.

A regressziós modell kiválasztásánál az egyik alapvető követelmény a lehető legnagyobb egyszerűség biztosítása, amely lehetővé teszi a megfelelő pontosságú megoldás elérését. Ezért a statisztikai kapcsolatok megállapításához először általában a lineáris függvények osztályának modelljét tekintjük (mint a legegyszerűbb az összes lehetséges függvényosztály közül):

ahol bi, b2...bj olyan együtthatók, amelyek meghatározzák a független xij változók hatását az yi értékre; ai - szabad tag; ei - véletlenszerű eltérés, amely a figyelembe nem vett tényezők hatását tükrözi a függő változóra; n - független változók száma; N a megfigyelések száma, és a feltételnek (N . n+1) teljesülnie kell.

Lineáris modell különböző problémák nagyon széles osztályát tudja leírni. A gyakorlatban azonban, különösen a társadalmi-gazdasági rendszerekben, néha nehézkes a lineáris modellek alkalmazása a nagy közelítési hibák miatt. Ezért gyakran használnak nemlineáris többszörös regressziós függvényeket, amelyek linearizálhatók. Ezek közé tartozik például a termelési függvény ( teljesítmény funkció Cobb-Douglas), amelyet különféle társadalmi-gazdasági tanulmányokban alkalmaztak. Úgy néz ki:

ahol b 0 a normalizációs tényező, b 1 ...b j ismeretlen együtthatók, e i véletlen eltérés.

Természetes logaritmusokkal ezt az egyenletet lineáris formára alakíthatja:

Az így kapott modell lehetővé teszi a szabványos eljárások használatát lineáris regresszió, fentebb leírtuk. Kétféle (additív és multiplikatív) modell felépítésével kiválaszthatja a legjobbat, és kisebb közelítési hibákkal további kutatásokat végezhet.

Van egy jól kidolgozott rendszer a közelítő függvények kiválasztására - az érvek csoportos számbavételének módszere(MGUA).

A kiválasztott modell helyességét a reziduumok tanulmányozásának eredményei alapján lehet megítélni, amelyek a megfigyelt y i értékek és a regressziós egyenlet segítségével megjósolt y i megfelelő értékek közötti különbségek. Ebben az esetben hogy ellenőrizze a modell megfelelőségét számított átlagos közelítési hiba:

A modell akkor tekinthető megfelelőnek, ha e nem haladja meg a 15%-ot.

Külön hangsúlyozzuk, hogy a társadalmi-gazdasági rendszerek vonatkozásában a klasszikus regressziós modell megfelelőségének alapvető feltételei nem mindig teljesülnek.

Anélkül, hogy a felmerülő elégtelenség minden okán kitérnénk, csak megnevezzük multikollinearitás- a legnehezebb probléma hatékony alkalmazása regressziós elemzési eljárások a statisztikai függőségek tanulmányozása során. Alatt multikollinearitásérthető, hogy a magyarázó változók között lineáris kapcsolat van.

Ez a jelenség:

a) torzítja a regressziós együtthatók jelentését azok értelmes értelmezése során;

b) csökkenti az értékelés pontosságát (növekszik az értékelések szórása);

c) növeli az együtthatóbecslések érzékenységét a mintaadatokra (a minta méretének növelése nagymértékben befolyásolhatja a becsléseket).

Különféle technikák léteznek a multikollinearitás csökkentésére. A legtöbb megfizethető módon- két változó közül az egyik kiiktatása, ha a köztük lévő korrelációs együttható abszolút értékben meghaladja a 0,8-at. Az, hogy a változók közül melyiket tartsuk meg, érdemi megfontolások alapján döntjük el. Ezután ismét kiszámítjuk a regressziós együtthatókat.

A lépésenkénti regressziós algoritmus lehetővé teszi, hogy egy független változót szekvenciálisan vegyen fel a modellbe, és elemezze a regressziós együtthatók jelentőségét és a változók multikollinearitását. Végül csak azok a változók maradnak a vizsgált összefüggésben, amelyek biztosítják a regressziós együtthatók szükséges jelentőségét és a multikollinearitás minimális befolyását.

Az ok-okozati összefüggések jellemzői

Ok-okozati összefüggések- ez összefüggés a jelenségek és folyamatok között, amikor az egyik változása - az ok - a másik változásához vezet - a hatás.

A jelek a kapcsolat tanulmányozásában betöltött jelentőségük szerint két osztályba sorolhatók.

Azokat a jeleket, amelyek más kapcsolódó jelekben változást okoznak, ún faktoriális (vagy tényezők).

A faktorjelek hatására megváltozó jelek azok hatékony.

Megkülönböztetni következő űrlapokat kapcsolatok: funkcionális és sztochasztikus. Funkcionális olyan kapcsolat, amelyben egy tényezőjellemző egy bizonyos értéke az eredő jellemző egy és csak egy értékének felel meg. A funkcionális kapcsolat minden megfigyelési esetben és a vizsgált populáció minden egyes egységére vonatkozóan megnyilvánul.

A funkcionális összefüggés a következő egyenlettel ábrázolható:
y i =f(x i), ahol: y i - eredő jel; f(x i) - az eredő és a faktorjellemzők közötti kapcsolat ismert függvénye; x i - tényező jele.
A valós természetben nincsenek funkcionális kapcsolatok. Ezek csak absztrakciók, hasznosak a jelenségek elemzésében, de leegyszerűsítik a valóságot.

Sztochasztikus (statisztikai vagy véletlenszerű)kapcsolat olyan mennyiségek közötti kapcsolatot ábrázol, amelyekben az egyikük egy másik mennyiség vagy más mennyiség változására az eloszlási törvény megváltoztatásával reagál. Más szóval, ezzel a kapcsolattal különböző jelentések az egyik változó egy másik változó különböző eloszlásainak felel meg. Ennek az az oka, hogy a függő változót a vizsgált függetleneken kívül számos el nem számolt vagy nem kontrollált véletlenszerű tényező, valamint a változók mérésében előforduló elkerülhetetlen hibák is befolyásolják. Tekintettel arra, hogy a függő változó értékei véletlenszerű szórásnak vannak kitéve, nem jósolhatók meg kellő pontossággal, de csak bizonyos valószínűséggel jelezhetők.

Az Y és X közötti sztochasztikus függés kétértelműsége miatt különösen az x-re átlagolt függési séma érdekes, ti. az átlagérték változásának mintázata - az Mx(Y) feltételes matematikai elvárás (egy Y valószínűségi változó matematikai elvárása, amelyet akkor találtunk meg, ha az X változó felveszi az x értéket) x függvényében.

A sztochasztikus kommunikáció speciális esete a korrelációs kommunikáció. Korreláció(a lat. korreláció- összefüggés, kapcsolat). A fogalom közvetlen meghatározása korreláció - sztochasztikus, valószínű, lehetséges kapcsolat kettő (pár) vagy több (több) között Véletlen változók.

Két változó közötti korrelációs függőséget e változók közötti statisztikai kapcsolatnak is nevezik, amelyben egy változó minden értéke egy bizonyos átlagértéknek felel meg, pl. a feltételes matematikai elvárás más. A korrelációs függés a sztochasztikus függés egy speciális esete, amelyben a faktorjellemzők értékeinek változása (x 1 x 2 ..., x n) az eredményül kapott jellemző átlagértékének változását vonja maga után.



A következő típusú korrelációkat szokás megkülönböztetni:

1. Párkorreláció – kapcsolat két jellemző között (eredményes és faktoros vagy kéttényezős).

2. Részleges korreláció - az eredő és az egytényezős jellemzők közötti függés a vizsgálatban szereplő egyéb tényezők jellemzőinek fix értékével.

3. Többszörös korreláció - az eredő és a vizsgálatban szereplő két vagy több tényezőjellemző függése.

A regressziós elemzés célja

Az ok-okozati összefüggések ábrázolásának analitikus formája a regressziós modell. A regresszióanalízis tudományos érvényessége és népszerűsége a vizsgált jelenség modellezésének egyik fő matematikai eszközévé teszi. Ezt a módszert a kísérleti adatok kiegyenlítésére és a különböző tényezőknek a kapott változóra gyakorolt ​​összehasonlító hatásának mennyiségi becslésére használják.

A regressziós elemzés az egy olyan kapcsolat analitikus kifejezésének meghatározásában, amelyben egy érték (függő változó vagy eredő jellemző) változása egy vagy több független érték (tényezők vagy prediktorok) és az összes többi tényező halmazának hatására következik be. amelyek a függő értéket is befolyásolják, állandó és átlagos értéknek vesszük.

A regressziós elemzés céljai:

Az eredő y jellemző feltételes átlagértéke funkcionális függésének értékelése a faktortényezőktől (x 1, x 2, ..., x n);

Függő változó értékének előrejelzése a független változó(k) segítségével.

Az egyes független változók hozzájárulásának meghatározása a függő változó variációjához.

A regressziós elemzéssel nem lehet megállapítani, hogy van-e kapcsolat a változók között, mivel az ilyen kapcsolat megléte az elemzés alkalmazásának előfeltétele.

A regressziós elemzésben előzetesen feltételezzük, hogy az eredő (U) és az x 1, x 2 ..., x n faktor jellemzők között ok-okozati összefüggések vannak.

Funkció , op Az indikátor paraméterektől való meghatározó függését regressziós egyenletnek (függvénynek) nevezzük. 1 . A regressziós egyenlet a függő változó várható értékét mutatja a független változók bizonyos értékei mellett.
A modellben szereplő tényezők számától függően x A modelleket egytényezősre (páros regressziós modell) és többtényezősre (többszörös regressziós modellre) osztják. A függvény típusától függően a modelleket lineárisra és nemlineárisra osztják.

Páros regressziós modell

Az el nem számolt véletlenszerű tényezők és okok hatására az y egyedi megfigyelések kisebb-nagyobb mértékben eltérnek az f(x) regressziós függvénytől. Ebben az esetben a két változó közötti kapcsolat egyenlete (páros regressziós modell) a következőképpen ábrázolható:

Y=f(X) + ɛ,

ahol ɛ a regressziós függvénytől való eltérést jellemző valószínűségi változó. Ezt a változót zavarnak vagy zavarnak (maradék vagy hiba) nevezzük. Így a regressziós modellben a függő változó Y van valami funkció f(X) egészen véletlenszerű zavarásig ɛ.

Tekintsük a klasszikus lineáris páronkénti regressziós modellt (CLMPR). Úgy néz ki mint

y i =β 0 + β 1 x i +ɛ i (i=1,2, …, n),(1)

Ahol y i– magyarázható (eredmény, függő, endogén változó); x i– magyarázó (előrejelző, faktor, exogén) változó; β 0, β 1– numerikus együtthatók; ɛi– véletlenszerű (sztochasztikus) komponens vagy hiba.

A KLMPR alapfeltételei (előfeltételei, hipotézisei):

1) x i– egy determinisztikus (nem véletlenszerű) mennyiség, és feltételezzük, hogy az x i értékek közül nem mindegyik egyforma.

2) Várható érték(átlagérték) zavarok ɛi egyenlő nullával:

М[ɛ i ]=0 (i=1,2, …, n).

3) A zavar szórása az i bármely értékére (homoscedaszticitási feltétel) állandó:

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) A különböző megfigyelések zavarai nem korrelálnak egymással:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 i≠j esetén,

ahol cov[ɛ i , ɛ j ] a kovariancia együttható (korrelációs momentum).

5) A zavarok normális eloszlású valószínűségi változók, nulla átlaggal és σ 2 szórással:

ɛ i ≈ N(0, σ 2).

A regressziós egyenlet megszerzéséhez az első négy premisszák elegendőek. Az ötödik előfeltétel teljesítésének követelménye szükséges a regressziós egyenlet és paraméterei pontosságának értékeléséhez.

Megjegyzés: A lineáris kapcsolatokra való összpontosítást a változók korlátozott változatossága magyarázza, valamint az a tény, hogy a legtöbb esetben a nemlineáris kapcsolatok formáit (logaritmussal vagy a változók helyettesítésével) lineáris formává alakítják a számítások elvégzéséhez.

Hagyományos legkisebb négyzetek (OLS) módszer

A mintából származó modellbecslés az egyenlet

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

ahol ŷ i – a regressziós egyenletből kapott függő változó elméleti (közelítő) értékei; a 0, a 1 - a regressziós egyenlet együtthatói (paraméterei) (a β 0, illetve β 1 együtthatók mintabecslései).

A legkisebb négyzetek szerint az ismeretlen paramétereket a 0 , a 1 úgy választjuk meg, hogy az ŷ i értékeknek az y i tapasztalati értékektől való négyzetes eltéréseinek összege (maradék négyzetösszeg) minimális legyen:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

ahol e i = y i - ŷ i – ɛ i zavar mintabecslése vagy regressziós reziduum.

A probléma az a 0 és a 1 paraméterek olyan értékeinek megtalálása, amelyeknél a Q e függvény a legkisebb értéket veszi fel. Figyeljük meg, hogy a Q e = Q e (a 0, a 1) függvény két a 0 és a 1 változó függvénye, amíg meg nem találtuk, majd rögzítjük azok „legjobb” (a legkisebb négyzetek módszere értelmében vett) értékét, a x i. , y i kísérleti úton talált állandó számok.

A szükséges feltételek a (3) extrémákat úgy találjuk meg, hogy két változó e függvényének parciális deriváltjait nullával egyenlővé tesszük. Ennek eredményeként két lineáris egyenletrendszert kapunk, amelyet normál egyenletrendszernek nevezünk:

(4)

Az a 1 együttható y minta regressziós együtthatója x-en, amely megmutatja, hogy átlagosan hány egységgel változik az y változó, ha az x változó mértékegységével változik, azaz y változása x variációs egységenként. Jel egy 1 jelzi ennek a változásnak az irányát. Az a 0 együttható - elmozdulás, a (2) szerint egyenlő ŷ i értékével x = 0-nál, és nem biztos, hogy értelmes értelmezése van. Emiatt a függő változót néha válasznak nevezik.

A regressziós együttható becslések statisztikai tulajdonságai:

Az együttható becslései a 0 , a 1 torzítatlanok;

A becslések szórása a 0 , a 1 csökken (a becslések pontossága nő) az n mintanagyság növekedésével;

Becslési variancia lejtő a 1 a növekedéssel csökken, ezért célszerű az x i-t úgy választani, hogy az átlagérték körüli szórásuk nagy legyen;

Ha x¯ > 0 (ami a legnagyobb érdeklődésre tart számot), negatív statisztikai kapcsolat van a 0 és az 1 között (az 1 növekedése a 0 csökkenéséhez vezet).

AZ EREDMÉNYEK KÖVETKEZTETÉSE

8.3a. táblázat. Regressziós statisztika
Regressziós statisztika
Többes szám R 0,998364
R-négyzet 0,99673
Normalizált R-négyzet 0,996321
Standard hiba 0,42405
Észrevételek 10

Először nézzük meg a számítások felső részét, amelyet a 8.3a táblázat mutat be – regressziós statisztikák.

A bizonyosság mértékének is nevezett R-négyzet érték a kapott regressziós egyenes minőségét jellemzi. Ezt a minőséget fejezi ki a forrásadatok és a regressziós modell (számított adatok) közötti megfelelés mértéke. A bizonyosság mértéke mindig az intervallumon belül van.

A legtöbb esetben az R-négyzet értéke ezek közé az értékek közé esik, amelyeket szélsőséges értékeknek nevezünk, pl. nulla és egy között.

Ha az R-négyzet értéke közel van egyhez, ez azt jelenti, hogy a megszerkesztett modell a releváns változók szinte minden változását megmagyarázza. Ezzel szemben a nullához közeli R-négyzet érték azt jelenti gyenge minőségűépített modell.

Példánkban a bizonyosság mértéke 0,99673, ami a regressziós egyenesnek az eredeti adatokhoz való nagyon jó illeszkedését jelzi.

Többes szám R- többszörös korrelációs együttható R - a független változók (X) és a függő változó (Y) függésének mértékét fejezi ki.

Több R egyenlő négyzetgyök a determinációs együtthatóból ez a mennyiség nullától egyig terjedő tartományban vesz fel értékeket.

Az egyszerű lineáris regressziós elemzésben az R többszöröse egyenlő a Pearson-korrelációs együtthatóval. Valóban, esetünkben az R többszöröse megegyezik az előző példa Pearson-korrelációs együtthatójával (0,998364).

8.3b. táblázat. Regressziós együtthatók
Esély Standard hiba t-statisztika
Y kereszteződés 2,694545455 0,33176878 8,121757129
X változó 1 2,305454545 0,04668634 49,38177965
* A számítások csonkolt változata rendelkezésre áll

Tekintsük most a számítások középső részét, amelyet a 8.3b táblázat mutat be. Itt a b regressziós együttható (2,305454545) és az ordináta tengely menti elmozdulás adott, azaz. a konstans (2,694545455).

A számítások alapján a következőképpen írhatjuk fel a regressziós egyenletet:

Y= x*2,305454545+2,694545455

A változók közötti kapcsolat irányát az előjelek (negatív vagy pozitív) alapján határozzuk meg. regressziós együtthatók(b együttható).

Ha a jel at regressziós együttható- pozitív, a függő változó és a független változó közötti kapcsolat pozitív lesz. Esetünkben a regressziós együttható előjele pozitív, tehát a kapcsolat is pozitív.

Ha a jel at regressziós együttható- negatív, a függő változó és a független változó közötti kapcsolat negatív (inverz).

A 8.3c táblázatban. Bemutatjuk a maradékok származtatásának eredményeit. Ahhoz, hogy ezek az eredmények megjelenjenek a jelentésben, aktiválnia kell a „Residuals” jelölőnégyzetet a „Regresszió” eszköz futtatásakor.

A TOVÁBBI VISSZAVONÁSA

8.3c. táblázat. Maradék
Megfigyelés Megjósolta Y Maradék Standard egyenlegek
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

A jelentés ezen részét felhasználva láthatjuk az egyes pontok eltéréseit a megszerkesztett regressziós egyenestől. A legnagyobb abszolút érték

A regressziós elemzés módszere egy adott paraméteres sorozatba tartozó termékek műszaki és gazdasági paramétereinek meghatározására szolgál, értékviszonyok kiépítése és összehangolása érdekében. Ezt a módszert a fő fogyasztói tulajdonságokat tükröző egy vagy több műszaki és gazdasági paraméter meglétével jellemezhető termékek szintjének és árarányainak elemzésére és igazolására használják. A regressziós elemzés lehetővé teszi, hogy olyan empirikus képletet találjunk, amely leírja az ár függését a termékek műszaki és gazdasági paramétereitől:

P=f(X1X2,...,Xn),

ahol P a termék egységárának értéke, dörzsölje; (X1, X2, ... Xn) - a termékek műszaki és gazdasági paraméterei.

A regresszióanalízis módszere - az alkalmazott normatív-paraméteres módszerek közül a legfejlettebb - hatékony a korszerű számításokon alapuló számítások elvégzésekor. információs technológiákés rendszerek. Alkalmazása a következő fő lépéseket tartalmazza:

  • a termékek besorolási paraméteres csoportjainak meghatározása;
  • a termék árát leginkább befolyásoló paraméterek kiválasztása;
  • az árváltozások kapcsolati formájának kiválasztása és indoklása a paraméterek változása esetén;
  • normálegyenletrendszer felépítése és regressziós együtthatók számítása.

A termékek fő minősítési csoportja, melynek ára kiegyenlítés tárgyát képezi, egy paraméteres sorozat, amelyen belül a termékek alkalmazásuktól, működési feltételektől, követelményektől stb. függően különböző kivitelekbe csoportosíthatók. Paraméteres sorozatok kialakításakor automatikus osztályozási módszerek használhatók, amelyek lehetővé teszik a homogén csoportok megkülönböztetését a termékek teljes tömegétől. A műszaki és gazdasági paraméterek kiválasztása a következő alapvető követelmények alapján történik:

  • a kiválasztott paraméterek szabványokban és műszaki leírásokban rögzített paramétereket tartalmaznak; kívül technikai paraméterek(teljesítmény, teherbírás, sebesség, stb.) a termékek sorozatosításának, komplexitási együtthatóinak, egységesítésének stb.
  • a kiválasztott paraméterkészletnek kellően teljes mértékben jellemeznie kell a sorozatba tartozó termékek tervezési, technológiai és működési tulajdonságait, és meglehetősen szoros összefüggésben kell állnia az árral;
  • a paraméterek nem függhetnek egymástól.

Az árat jelentősen befolyásoló műszaki és gazdasági paraméterek kiválasztásához párkorrelációs együtthatók mátrixát számítjuk ki. A paraméterek közötti korrelációs együtthatók nagysága alapján megítélhető kapcsolatuk szorossága. Ugyanakkor a nullához közeli korreláció a paraméternek az árra gyakorolt ​​jelentéktelen hatását mutatja. A műszaki-gazdasági paraméterek végső kiválasztása számítástechnika és megfelelő szabványos programok segítségével, lépésről lépésre történő regresszióanalízissel történik.

Az árképzési gyakorlatban a következő függvénykészletet használják:

lineáris

P = ao + alXl + ... + antXn,

lineáris-hatalom

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverz logaritmus

P = a0 + a1: X1-ben + ... + an: Xn-ben,

erő

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

jelzésértékű

P = e^(a1+a1X1+...+anXn)

hiperbolikus

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

ahol P az árkiegyenlítés; X1 X2,..., Xn - a sorozat termékei műszaki és gazdasági paramétereinek értéke; a0, a1 ..., аn - a regressziós egyenlet számított együtthatói.

BAN BEN praktikus munkaárképzéshez az árak és a műszaki-gazdasági paraméterek kapcsolati formájától függően más regressziós egyenletek is használhatók. Az ár és a műszaki-gazdasági paraméterek halmaza közötti kapcsolat funkciója előre beállítható vagy automatikusan kiválasztható a számítógépes feldolgozás során. Az ár és a paraméterkészlet közötti összefüggés szorosságát a többszörös korrelációs együttható értékével értékeljük. Az egyikhez való közelsége szoros kapcsolatot jelez. A regressziós egyenlet segítségével egy adott paraméteres sorozat termékeinek kiegyenlített (számított) árértékeit kapjuk. A kiegyenlítés eredményeinek értékeléséhez a számított árértékek ténylegestől való eltérésének relatív értékeit számítják ki:

Tsr = Rf - Rr: R x 100

ahol Рф, Рр - tényleges és számított árak.

A CR értéke nem haladhatja meg a 8-10%-ot. Ha a számított értékek jelentős eltéréseket mutatnak a tényleges értékektől, meg kell vizsgálni:

  • a paraméteres sorozat kialakításának helyessége, mivel olyan termékeket tartalmazhat, amelyek paramétereikben élesen eltérnek a sorozat többi termékétől. Ki kell zárni őket;
  • a műszaki és gazdasági paraméterek helyes kiválasztása. Lehetséges olyan paraméterkészlet, amely gyengén korrelál az árral. Ebben az esetben folytatni kell a keresést és a paraméterek kiválasztását.

A regresszióanalízis elvégzésének eljárása és módszertana, az egyenlet ismeretlen paramétereinek megtalálása és gazdasági értékelés a kapott eredményeket a matematikai statisztika követelményeinek megfelelően végezzük.

A regresszióanalízis fő célja annak az analitikus kommunikációs formának a meghatározásából áll, amelyben az effektív jellemző változását egy vagy több tényezőjellemző hatása okozza, és az összes többi, az effektív jellemzőt is befolyásoló tényező együttesét állandó és átlagos értéknek vesszük.
Regressziós elemzési problémák:
a) A függőség formájának megállapítása. A jelenségek közötti kapcsolat jellegét és formáját tekintve megkülönböztetünk pozitív lineáris és nemlineáris, valamint negatív lineáris és nemlineáris regressziót.
b) A regressziós függvény meghatározása egy vagy olyan típusú matematikai egyenlet formájában, és a magyarázó változók hatásának megállapítása a függő változóra.
c) A függő változó ismeretlen értékeinek becslése. A regressziós függvény segítségével reprodukálhatja a függő változó értékeit a magyarázó változók megadott értékeinek intervallumán belül (azaz megoldhatja az interpolációs problémát), vagy kiértékelheti a folyamat menetét a megadott intervallumon kívül (pl. oldja meg az extrapolációs problémát). Az eredmény a függő változó értékének becslése.

A páros regresszió két y és x változó közötti kapcsolat egyenlete: , ahol y a függő változó (eredményattribútum); x egy független magyarázó változó (feature-faktor).

Léteznek lineáris és nemlineáris regressziók.
Lineáris regresszió: y = a + bx + ε
A nemlineáris regressziók két osztályba sorolhatók: azok a regressziók, amelyek az elemzésbe bevont magyarázó változókhoz képest nemlineárisak, de a becsült paraméterekhez képest lineárisak, és a becsült paraméterekhez képest nemlineárisak.
A magyarázó változókban nemlineáris regressziók:

A becsült paraméterekhez képest nemlineáris regressziók: A regressziós egyenlet felépítése a paraméterek becslésén múlik. A lineáris regressziók paramétereinek becsléséhez a legkisebb négyzetek módszerét (OLS) használjuk. A legkisebb négyzetek módszere lehetővé teszi olyan paraméterbecslések megszerzését, amelyeknél az eredő y jellemző tényleges értékeinek az elméleti értékektől való négyzetes eltéréseinek összege minimális, pl.
.
A lineárisra redukálható lineáris és nemlineáris egyenletek esetében a következő rendszert kell megoldani a és b vonatkozásában:

Használhat kész képleteket, amelyek ebből a rendszerből következnek:

A vizsgált jelenségek közötti kapcsolat szorosságát a lineáris regresszióra vonatkozó párkorrelációs lineáris együtthatóval értékeljük:

és korrelációs index - nemlineáris regresszióhoz:

A megszerkesztett modell minőségét a determinációs együttható (index), valamint a közelítés átlagos hibája alapján értékeljük.
Átlagos közelítési hiba - a számított értékek átlagos eltérése a tényleges értékektől:
.
A megengedett értékhatár nem több, mint 8-10%.
Az átlagos rugalmassági együttható azt mutatja meg, hogy a teljes eredmény átlagosan hány százalékkal változik meg átlagos méret ha x tényező 1%-kal változik az átlagos értékéhez képest:
.

A varianciaanalízis célja a függő változó varianciájának elemzése:
,
ahol az eltérések négyzetes összege;
- a regresszióból eredő eltérések négyzetes összege ("magyarázott" vagy "tényező");
- az eltérések négyzetes maradék összege.
A regresszióval magyarázható varianciarészesedést az eredményül kapott y karakterisztiká teljes varianciájában az R2 meghatározás együtthatójával (indexével) jellemezzük:

A determinációs együttható az együttható vagy korrelációs index négyzete.

Az F-próba - a regressziós egyenlet minőségét értékelve - a regressziós egyenlet statisztikailag jelentéktelenségére vonatkozó Nem hipotézis és a kapcsolat szorosságának mutatójának teszteléséből áll. Ehhez összehasonlítjuk a tényleges F tényt és a Fisher F-kritérium kritikus (táblázatos) F táblázat értékeit. Az F tényt a faktor és a maradék szórások értékének egy szabadságfokra számított arányából határozzuk meg:
,
ahol n a lakossági egységek száma; m az x változók paramétereinek száma.
F táblázat a kritérium maximális lehetséges értéke véletlenszerű tényezők hatására adott szabadsági fokon és szignifikancia szinten a. Az a szignifikancia szint a helyes hipotézis elutasításának valószínűsége, amennyiben az igaz. Általában a értéke 0,05 vagy 0,01.
Ha F táblázat< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F tény, akkor a H o hipotézist nem utasítjuk el, és felismerjük a regressziós egyenlet statisztikai jelentéktelenségét és megbízhatatlanságát.
A regressziós és korrelációs együtthatók statisztikai szignifikanciájának értékeléséhez a Student-féle t-próbát és az egyes mutatókra vonatkozó konfidenciaintervallumokat számítjuk ki. A mutatók véletlenszerűségére vonatkozóan hipotézist állítanak fel, azaz. a nullától való jelentéktelen különbségükről. A regressziós és korrelációs együtthatók jelentőségének felmérése Student-féle t-próbával úgy történik, hogy az értékeket összehasonlítjuk a véletlen hiba nagyságával:
; ; .
A lineáris regressziós paraméterek véletlenszerű hibáit és a korrelációs együtthatót a következő képletek határozzák meg:



Összehasonlítva a t-statisztika tényleges és kritikus (táblázatos) értékét - t táblázat és t tény - elfogadjuk vagy elvetjük a H o hipotézist.
A Fisher F-próba és a Student t-statisztika közötti kapcsolatot az egyenlőség fejezi ki

Ha t táblázat< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >tény, hogy a H o hipotézist nem utasítják el, és felismerik az a, b vagy képződés véletlenszerűségét.
A konfidenciaintervallum kiszámításához minden mutatóhoz meghatározzuk a maximális D hibát:
, .
A konfidenciaintervallumok kiszámításának képlete a következő:
; ;
; ;
Ha a nulla a konfidenciaintervallumba esik, pl. Ha az alsó határ negatív és a felső határ pozitív, akkor a becsült paramétert nullának vesszük, mivel nem vehet fel egyszerre pozitív és negatív értéket.
Az előrejelzési értéket úgy határozzuk meg, hogy a megfelelő (előrejelzési) értéket behelyettesítjük a regressziós egyenletbe. Az átlagot kiszámítják standard hiba előrejelzés:
,
Ahol
és épül megbízhatósági intervallum előrejelzés:
; ;
Ahol .

Példa megoldás

1. számú feladat. Az uráli régió hét területén 199X-ben két jellemző értéke ismert.
Asztal 1.
Kívánt: 1. Az y x-től való függésének jellemzéséhez számítsa ki a következő függvények paramétereit!
a) lineáris;
b) hatvány (először el kell végezni a változók linearizálási eljárását mindkét rész logaritmusának felvételével);
c) demonstratív;
d) egy egyenlő oldalú hiperbola (azt is ki kell találnia, hogyan lehet előre linearizálni ezt a modellt).
2. Értékelje az egyes modelleket a közelítés átlagos hibájával és a Fisher-féle F-próbával.

Megoldás (1. lehetőség)

A lineáris regresszió a és b paramétereinek kiszámításához (a számítás elvégezhető számológéppel).
oldja meg a normál egyenletrendszert AÉs b:
A kiinduló adatok alapján számolunk :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Teljes 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Házasodik. jelentése (Össz./n) 57,89 54,90 3166,05 3048,34 3383,68 x x 8,1
s 5,74 5,86 x x x x x x
s 2 32,92 34,34 x x x x x x


Regressziós egyenlet: y = 76,88 - 0,35X. A napi átlag növekedésével bérek 1 dörzsölésért. az élelmiszerek beszerzésére fordított kiadások aránya átlagosan 0,35 százalékponttal csökken.
Számítsuk ki a lineáris pár korrelációs együtthatót:

Az összefüggés mérsékelt, fordított.
Határozzuk meg a determinációs együtthatót:

Az eredmény 12,7%-os eltérését az x tényező változása magyarázza. A tényleges értékek behelyettesítése a regressziós egyenletbe X, határozzuk meg az elméleti (számított) értékeket . Nézzük meg az átlagos közelítési hiba értékét:

A számított értékek átlagosan 8,1%-kal térnek el a tényleges értékektől.
Számítsuk ki az F-kritériumot:

1 óta< F < ¥ , meg kellene fontolni F -1 .
A kapott érték a hipotézis elfogadásának szükségességét jelzi De oh az azonosított függőség véletlenszerűsége és az egyenlet paramétereinek statisztikai jelentéktelensége és a kapcsolat szorosságát jelző mutató.
1b. A hatványmodell felépítését a változók linearizálási eljárása előzi meg. A példában a linearizálást az egyenlet mindkét oldalának logaritmusával hajtjuk végre:


AholY=lg(y), X=lg(x), C=lg(a).

A számításokhoz a táblázat adatait használjuk. 1.3.

1.3. táblázat

Y x YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Teljes 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Átlagos érték 1,7605 1,7370 3,0572 3,1011 3,0194 x x 28,27 8,0
σ 0,0425 0,0484 x x x x x x x
σ 2 0,0018 0,0023 x x x x x x x

Számítsuk ki C-t és b-t:


Kapunk lineáris egyenlet:.
A potencírozás végrehajtása után a következőket kapjuk:

A tényleges értékek behelyettesítése ebben az egyenletben X, megkapjuk az eredmény elméleti értékeit. Ezek felhasználásával kiszámítjuk a mutatókat: kapcsolat szorossága - korrelációs index és átlagos közelítési hiba

A hatványtörvény modell jellemzői azt mutatják, hogy valamivel jobban írja le a kapcsolatot, mint a lineáris függvény.

1c. Exponenciális görbe egyenletének megalkotása

amelyet egy eljárás előz meg a változók linearizálására az egyenlet mindkét oldalának logaritmusával:

A számításokhoz a táblázat adatait használjuk.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Teljes 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Házasodik. zn. 1,7605 54,9 96,5711 3,1011 3048,34 x x 28,68 8,0
σ 0,0425 5,86 x x x x x x x
σ 2 0,0018 34,339 x x x x x x x

Az A és a regressziós paraméterek értékei BAN BENösszege:


A kapott lineáris egyenlet a következő: . Potencírozzuk a kapott egyenletet, és írjuk fel a szokásos formában:

A kapcsolat szorosságát a korrelációs indexen keresztül értékeljük: