рефератырефератырефератырефератырефератырефератырефератырефераты

рефераты, скачать реферат, современные рефераты, реферат на тему, рефераты бесплатно, банк рефератов, реферат культура, виды рефератов, бесплатные рефераты, экономический реферат

"САМЫЙ БОЛЬШОЙ БАНК РЕФЕРАТОВ"

Портал Рефератов

рефераты
рефераты
рефераты

Статистичний аналіз тенденцій захворюваності в Україн

Міністерство освіти і науки України

Дніпропетровський національний університет

ДИПЛОМНА РОБОТА

СТАТИСТИЧНИЙ АНАЛІЗ ТЕНДЕНЦІЙ ЗАХВОРЮВАНОСТІ В УКРАЇНІ

Виконавець: студентка групи МС-02-1

Власова В.М.

Дніпропетровськ

2007

РЕФЕРАТ

Дипломна робота: 177 с., 10 джерел, 239 рисунків, 1 додаток.

Перелік ключових слів: регресія, МНК-оцінка, паралельність лінійних регресій, збіг лінійних регресій, гіпотеза, рівень значущості, критерій, захворюваність, рік спостереження, довірчий інтервал.

Об'єкт дослідження: захворюваності на туберкульоз, рак, СНІД, гепатити А та Б в України з 1990 по 2005 роки.

Мета роботи: дослідження тенденцій захворюваності на туберкульоз, рак, СНІД, гепатити А та Б в двадцяти чотирьох областях України, А.Р.Крим, містах Київ та Севастополь та Україні в цілому у період з 1990 по 2005 роки.

Annotation

The graduation research of the fifth year student Vlasova Violetta (Dnipropetrovsk national university, mathematics and mechanics faculty, department of probability theory and statistics) deals with statistical analysis of tendencies of morbidity on tuberculosis, cancer, AIDS, hepatitis A and B in Ukraine with 1990 for 2005 years.

ЗМІСТ

ВСТУП

РОЗДІЛ 1. ЛІНІЙНА РЕГРЕСІЯ

1.1 Метод найменших квадратів. Властивості оцінок найменших квадратів. Оцінювання . Теорія розподілів. Оцінювання при наявності лінійних обмежень

1.2 F-критерій

1.3 Лінійна одновимірна регресія

1.4 Порівняння прямих регресії. Критерій паралельності прямих. Критерій збігу прямих

РОЗДІЛ 2. ДОСЛІДЖЕННЯ ЗАХВОРЮВАНОСТІ НА ТУБЕРКУЛЬОЗ, РАК, СНІД, ГЕПАТИТ А, ГЕПАТИТ Б

2.1 Дослідження захворюваності на туберкульоз (всі форми), туберкульоз легенів

2.2 Дослідження захворюваності на рак

2.3 Дослідження захворюваності на СНІД

2.4 Дослідження захворюваності на гепатит А

2.5 Дослідження захворюваності на гепатит Б

РОЗДІЛ 3. ПОРІВНЯННЯ ЗАХВОРЮВАННОСТІ СЕРЕД ОБЛАСТЕЙ УКРАЇНИ, А.Р. КРИМ, МІСТАХ КИЇВ ТА СЕВАСТОПОЛЬ

3.1 Порівняння тенденцій росту захворюваності на туберкульоз серед областей України, А.Р. Крим, м. Київ та Севастополь

3.2 Порівняння тенденцій росту захворюваності на рак серед областей України, А.Р. Крим, м. Київ та Севастополь

3.3 Порівняння тенденцій росту захворюваності на СНІД серед областей України, А.Р. Крим, м. Київ та Севастополь

3.4 Порівняння тенденцій зменшення захворюваності на гепатит А серед областей України, А.Р. Крим, м. Київ та Севастополь

3.5 Порівняння тенденцій зменшення захворюваності на гепатит Б серед областей України, А.Р. Крим, м. Київ та Севастополь

ВИСНОВКИ

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

ДОДАТОК

ВСТУП

Актуальність теми. У дипломній роботі досліджується захворюваність на туберкульоз, рак, СНІД, гепатити А та Б. На сучасний момент по цим захворюванням в Україні склалась наступна ситуація.

Епідемію туберкульозу в Україні було оголошено ВООЗ в 1995 році. Щоденно в країні виявляють приблизно 82 нових випадки захворювання на туберкульоз і 30 хворих помирає від нього. За офіційними даними, кількість хворих на туберкульоз в Україні складає 1,4% населення, тобто 700 тисяч чоловік, а за експертними оцінками - близько 1,5 мільйона. З них близько 120 тисяч - з активною, найбільш заразною формою туберкульозу. Основними причинами, що призвели до масштабного поширення туберкульозу в Україні, є, в першу чергу, поглиблення соціально-економічної кризи в країні, різке зниження життєвого рівня та добробуту переважної більшості населення, безробіття, незбалансоване, недостатнє і неякісне харчування значних прошарків населення, збільшення числа соціально-дезадаптованих осіб в країні (бідних, жебраків, бродяг, мігрантів, переселенців, алкоголіків, наркоманів та інших), тих, що мають незадовільні житлові умови, занепад системи охорони здоров'я та низька санітарна культура населення. Чимало недоліків мають місце в організації та координації протитуберкульозних заходів, а також у роботі органів і закладів охорони здоров'я.

Погіршенню епідеміологічної ситуації також сприяє епідемія ВІЛ/СНІДу в Україні. Понад 30% ВІЛ-інфікованих хворіє на туберкульоз і близько 40% з них помирає від нього. Наявність ВІЛ-інфекції є потужним чинником, який сприяє розвитку активної форми туберкульозу в носіїв латентної інфекції та підвищує ймовірність розвитку рецидивуючого туберкульозу.

Україна займає одне з перших місць в Європі за темпами поширення ВІЛ-інфекції/СНІДу. За період з 1987 по 2006 роки офіційно було зареєстровано 104 645 випадків ВІЛ-інфекції, в тому числі 17 851 випадок захворювання на СНІД та 9 983 випадків смертей від захворювань, обумовлених СНІДом. Високі показники захворюваності відзначаються у Миколаївській області (86,3), Донецькій - (78,4), Дніпропетровській - (71,8), Одеській - (61,3), у м. Севастополь - (70,9) на 100 тисяч населення.

Як вважають експерти, якщо епідемію СНІДу в Україні не зупинити, зовсім незабаром країна зможе зайняти місце поряд з африканськими країнами. Також як і на африканському континенті, для більшості українців вартість противірусного лікування занадто висока. У лікарнях не вистачає навіть найнеобхідніших ліків, тому на лікування можуть розраховувати лише діти.

На початок 2006 року в онкологічних закладах системи МОЗ України на обліку перебувало 864 273 хворих, що на 3,7% більше, ніж в попередньому році.

Щорічно в Україні реєструються понад 150 тис. нововиявлень злоякісних захворювань. Найвищі показники захворюваності за останні 5 років спостерігаються у південних областях, а також Кіровоградській, Полтавській областях, АР Крим.

Майже 90 тисяч жителів України щорічно помирають від раку, при цьому 35 відсотків померлих - особи працездатного віку. Онкопатологія є причиною понад 15% усіх випадків смерті і поступається лише серцево-судинним захворюванням. У 2005 році смертність від злоякісних новоутворень в Україні склала 90 997 випадків. 38-40% онкологічних хворих помирають протягом першого року після встановлення діагнозу, що свідчить про запізнілу діагностику. У розвинених країнах світу цей показник не перевищує 30 %.

Вірусний гепатит А залишається однією з найпоширеніших інфекцій в Україні. З 1995 року має місце тенденція до зниження захворюваності на вірусний гепатит А, однак за даними ВООЗ (Всесвітня організація охорони здоров'я) щорічно за медичною допомогою звертаються від 70 до 150 тисяч осіб. В Україні за останні 5 років гепатитом перехворіло понад 375 тисяч осіб, кожний третій хворий - дитина до 15 років.

За мірою шкідливості для здоров'я населення та масштабами захворюваності вірусні гепатити в Україні займають домінуюче становище в структурі інфекційної патології. На цю групу інфекційних хвороб щорічно припадає до 20-30% захворювань, за винятком грипу та гострих інфекційних захворювань верхніх дихальних шляхів.

Погіршення технічного стану водоочисних споруд, водогінної мережі, перебої у водопостачанні, які пов'язані з аварійними ситуаціями та іншими причинами, неефективні засоби знезараження води призводять до виникнення епідемічних ускладнень, обумовлених водним фактором передачі інфекції.

Профілактику гепатиту A та гепатиту В шляхом вакцинації в Україні розпочали нещодавно. Разом з тим усім відомо, що такий метод профілактики є найбільш ефективним.

З метою забезпечення епідемічного благополуччя населення України та попередження інфекцій, щеплення з метою запобігання захворюванню на гепатит В включене в календар обов'язкових профілактичних щеплень за віком, а вакцинація з метою профілактики гепатиту А рекомендована на ендемічних територіях та за епідемічними показаннями.

Туберкульоз - це повітряно-крапельна, а точніше повітряно-пилова інфекція. Збудником туберкульозу є мікобактерія туберкульозу. Вона відкрита у 1882 році німецьким вченим Робертом Кохом. Однак, туберкульоз може бути спричинений і мікобактеріями африканською, бичачою, мишачою, пташиною та іншими.

До туберкульозу сприйнятливі приблизно 55 видів домашніх і диких тварин, риб та біля 25 видів птахів, поміж ними та людиною можливе перехресне зараження. Зараження туберкульозом відбувається від хворих на туберкульоз людей і можливе від великої рогатої худоби, свиней, овець, кіз, коней, кролів, птиці та інших. Немає такого органу людини чи тварини, який би не уражався туберкульозом. Залежно від того, який орган уражений мікобактерії можуть виділятися від хворого на туберкульоз з харкотинням, калом, сечею, спермою, із нориць тощо. У 95 % випадків мікобактерія туберкульозу потрапляє в організм людини при вдиханні запорошеного повітря. Заразитися при вживанні заражених продуктів харчування, зокрема сирого молока, погано провареного м'яса від хворих на туберкульоз тварин. Рознощиками туберкульозу можуть бути мухи, таргани, деякі кліщі; зараження можливе також при поцілунках, допалюванні чужих цигарок, через книжки, пошкоджену шкіру і т. ін.

Мікобактерії дуже стійкі в навколишньому середовищі. Так, мікобактерії туберкульозу в молочних продуктах живуть до 240-300 днів, в пилу, в тому числі вуличному, до 3 місяців. Вони добре витримують нагрівання до 85о С і охолодження до мінус 200о С. При температурі мінус 23о С мікобактерії туберкульозу зберігають життєздатність протягом 7 років, а прямі сонячні промені їх вбивають через 2 - 6 годин. Збудники туберкульозу зберігаються у річній воді до 5 місяців, у ґрунті - 1 - 2 роки, у приміщеннях при розсіяному світлі - до 1,5 місяців, у фекаліях і на пасовищах - до 1 року. Вегетативні, або бактеріальні, форми мікобактерій можуть трансформуватися у вірусні, ультрадрібні фільтруючі чи L-форми, і навпаки.

Мікобактерії туберкульозу (органи дихання, харчовий канал, шкіра тощо) спричиняють туберкульозне запальне вогнище (первинний афект). Туберкульозне запалення розвивається і водночас у запальний процес залучаються довколишні лімфатичні судини, найближчі до вогнища запалення лімфатичні вузли. Потім мікобактерії туберкульозу потрапляють в кров (бактеріємія). Мікобактерії туберкульозу розносяться лімфою і кров'ю в різні здорові органи і тканини і осідають там і спричиняють там туберкульозне запалення. Це явище називають лімфогенною й гематогенною дисемінацією туберкульозного процесу. Ця дисемінація характеризується утворенням первинних туберкульозних вогнищ у різних органах (легені, кістки, нирки тощо). Ці вогнища можуть загоюватися при сприятливій імунній опірності організму. Тоді організм набуває імунітету до туберкульозу

Рак. В останній час чітко простежується зростання захворюваності населення в зв'язку забрудненням навколишнього середовища. Особливо явно ця тенденція простежується в зростанні онкологічних захворювань на територіях, що постраждали від впливу аварії на Чорнобильській АЕС.

Ріст захворюваності злоякісними пухлинами обумовлює високу долю останніх у структурі інвалідності й смертності, а збільшення кількості осіб молодого віку і дітей серед хворих притягає до цієї проблеми все більшу увагу спеціалістів. Захворюваність, взагалі, й ураження злоякісними пухлинами особливо залежить, в першу чергу, від толерантності організму. Тому головною метою протиракової боротьби варто вважати організацію моніторингу стану здоров'я населення на основі методів раннього виявлення онкологічних захворювань.

СНІД. ВІЛ-інфекція - захворювання, яке послаблює імунітет людини - вражає переважно молодих людей віком від 18 до 27 років. Головними чинниками розповсюдження ВІЛ серед молоді є вживання ін'єкційних наркотиків і незахищені статеві стосунки.

Гепатит А. Вірус гепатиту А має кислотостійку оболонку. Це допомагає вірусам, які потрапили до організму із забрудненими продуктами і водою, пройти кислий захисний бар'єр шлунку. Вірус гепатиту А стійкий у водному середовищі, тому епідемії гепатиту А часто мають водний шлях передачі. Вірус гепатиту А відрізняється високою імуногенністю, після перенесеного захворювання формується стійкий довічний імунітет.

Гепатит А є однією з найпоширеніших інфекцій людини. У країнах з теплим кліматом і незадовільними санітарними умовами гепатитом А хворіє дуже багато людей.

Джерелом інфекції є хвора на гепатит А людина, яка з фекаліями виділяє в навколишнє середовище мільярди вірусів. При вживанні зараженої вірусом гепатиту А води або харчових продуктів (особливо погано термічно оброблених морепродуктів) віруси проникають в кишечник, потім, всмоктуючись, з потоком крові потрапляють в печінку і упроваджуються в її клітки - гепатоцити. Вірусні частинки-віріони розмножуються в цитоплазмі кліток печінки. Після виходу з кліток печінки вони потрапляють в жовчні протоки і виділяються з жовчю в кишечник.

Запальний процес в печінці, що приводить до пошкодження гепатоцитов, має імунологічну основу. Клітки імунної системи людини, Т-лімфоцити розпізнають уражені вірусом гепатоцити і атакують їх. Це приводить до загибелі інфікованих гепатоцитів, розвитку запалення (гепатит) і порушенню функції печінки.

Гепатит Б. Вірусний гепатит Б - це інфекційне захворювання печінки, обумовлене вірусом. Інфекція, обумовлена вірусом гепатиту Б, поширена повсюдно і кожен може піддатися зараженню.

Вірус гепатиту Б передається, в основному, через кров. Хронічний вірусний гепатит Б - небезпечне захворювання, яке може призвести до важких наслідків і загибелі хворого. Тому важливо своєчасно розпізнати і почати лікування гепатиту Б. Існують вакцини проти вірусу гепатиту Б, що дають надійний захист від розвитку захворювання.

Гепатит Б зустрічається найчастіше у дорослих людей (пік захворюваності доводиться на вікові групи 20-49 років). Зниження захворюваності у дітей і підлітків в розвинених країнах вдалося добитися за допомогою регулярної вакцинації.

Перенесення вірусу здійснюється з кров'ю або іншими біологічними рідинами хворої людини, які потрапляють безпосередньо в кров людини, яка інфікується. Це відбувається при спільному використовуванні колючо - ріжучих предметів (манікюрний набір, верстати для гоління), одного шприца для введення наркотиків, при пірсинге, татуаже з використанням погано обробленого інструментарію, при проведенні медичних маніпуляцій, статевим шляхом і від інфікованої матері дитині під час проходження його через родові шляхи.

Вихідні дані. Вихідними даними дослідження є офіційні дані центра медичної статистики Міністерства охорони здоров'я України.

Постановка задачі. На основі вихідних даних необхідно провести дослідження тенденцій захворюваності на туберкульоз, рак, СНІД, гепатит А та гепатит Б в Україні на протязі останніх 15 років.

В роботі необхідно розв'язати наступні задачі.

І. Методами лінійного регресійного аналізу дослідити

1) залежність захворюваності на туберкульоз (всі форми) та туберкульоз легенів від року спостереження,

2) залежність захворюваності на рак від року спостереження,

3) залежність захворюваності на СНІД від року спостереження,

4) залежність захворюваності на гепатит А від року спостереження,

5) залежність захворюваності на гепатит Б від року спостереження

(спостереження захворюваності відбувалося з 1990 по 2005 роки в кожній з 24 областей України, А.Р. Крим, м. Київ, м. Севастополь та Україні в цілому). Зробити висновки.

ІІ. Методами лінійного регресійного аналізу провести порівняння захворюваності на туберкульоз (всі форми), туберкульоз легенів, рак, СНІД, гепатит А, гепатит Б серед областей України, А.Р. Крим, м. Київ та Севастополь з метою виявлення регіонів України, в яких темпи росту або спадання захворюваності однакові або захворюваність кількісно однокова. Зробити висновки.

Методи дослідження. В роботі використовуються методи лінійного регресійного аналізу.

РОЗДІЛ 1. ЛІНІЙНА РЕГРЕСІЯ

1.1 Метод найменших квадратів. Властивості оцінок найменших квадратів. Оцінювання у2. Теорія розподілів. Оцінювання при наявності лінійних обмежень

Нехай Y - випадкова величина, яка флуктуює навколо деякого невідомого параметра з, тобто Y = з + е, де е - флюктуація або „помилка". Наприклад, е може бути „природною" флуктуацією, яка властива самому експерименту, або може бути помилкою у вимірюванні значення з.

Припустимо, що з можна подати у вигляді

з = в0 + в1x1 + … + вp-1xp-1,

де х1, х2, ..., xp-1 - відомі постійні величини, а вj (j = 0, 1, .., p - 1) - невідомі параметри, які підлягають оцінюванню. Якщо значення хj, j = 0, 1, .., p - 1 змінюються і при цьому спостерігається n значень Y1, Y2, ...,Yn змінною Y, то

Yi = в0 + в1xi1 + … + вp-1x i,p-1 + еi, i = 1, 2, ..., n, (1.1.1)

де xij i-те значенням для хj. В матричному вигляді (1.1.1) запишеться

або

Y = Xв + е, (1.1.2)

де x10 = x20 = ... = xn0 = 1.

Означення. Матриця X = Х(n p) називається регресійною матрицею. При цьому значення xij зазвичай вибираються так, щоб стовпці цієї матриці були лінійно незалежними, тобто ранг матриці X дорівнював р. Проте в деяких випадках при плануванні експерименту елементи матриці X обираються рівними тільки нулю і одиниці, і її стовпці можуть виявитися лінійно залежними. В цьому випадку матрицю X називають матрицею плану.

Далі хj називатимемо регресором, а Y - відкликом.

Модель (1.1.1) або (1.1.2) лінійна по відношенню до невідомих параметрів вj, тому її називають лінійною моделлю.

Одним з методів знаходження оцінки вектора в є метод найменших квадратів. Цей метод полягає в мінімізації суми по відношенню до вектора в. Точніше, вважаючи и = Xв, мінімізуємо величину е'е = ||Y- и||2 по відношенню до и [Х] = Щ, де Щ - образ оператора X, тобто Щ = {у: у = Хх} для деякого х. Якщо змінювати значення вектора и в межах Щ, то ||Y- и||2 (квадрат довжини вектора Y- и) досягає мінімуму при тому значенні и = , для якого (Y - ) Щ (рис.1.1.1). Тому

X'(Y - ) = 0,

Або

Х' = Х'Y. (1.1.3)

Вектор визначається однозначно, оскільки він є ортогональною проекцією вектора Y на Щ. Якщо тепер стовпці матриці X лінійно незалежні, то існує

Рис. 1.1.1 Метод найменших квадратів полягає у знаходженні такої точки А, для якої відстань АВ мінімальна

єдиний вектор , для якого = X. Підставлячи в (1.1.3), одержуємо нормальне рівняння

Х'Х = Х'Y. (1.1.4)

Оскільки ми припускаємо, що матриця X має ранг р, то матриця Х'Х додатньо визначена і, отже, не вироджена. Тому рівняння (1.1.4) має єдиний розв'язок, а саме

= ( Х'Х)-1 Х'Y

Цей розв'язок називається оцінкою найменших квадратів вектора в.

Оцінку для в можна одержати й в інший спосіб.

е'е = (Y-Хв)'(Y-Хв) = Y'Y - 2в'Х'Y+ в'Х'Хв

(використовуємо той факт, що в'Х'Y = (в'Х'Y)' = Y'Хв). Продиференцюємо е'е по в. Прирівнюючи одержану похідну е'е/в нулю, приходимо до рівняння

- 2Х'Y +2Х'Хв = 0, (1.1.5)

Або

Х'Хв = Х'Y.

Звідки

= ( Х'Х)-1 Х'Y

Покажемо, що знайдена стаціонарна точка є мінімумом функції е'е. Перепишемо (Y-Хв)'(Y-Хв) у вигляді

(Y-Хв)'(Y-Хв) = (Y-Х)'(Y-Х) + ( - в)'Х'Х( - в). (1.1.6)

Розпишемо

(Y-Х)'(Y-Х) + ( - в)'Х'Х( - в) = (Y'-Х'')(Y-Х) +

+ (' - в')(Х'Х - Х'Хв) = Y'Y - Y'X - 'X'Y + 'X'X +

+ 'X'X - 'X'X - 'X'X + 'X'X =

= {X'X = X'Y, оскільки - розв'язок нормального рівняння} =

= Y'Y - Y'X - 'X'Y + 'X'Y + 'X'Y - 'X'X в - в'X'Y + в'X'Xв =

= Y'Y - Y'Xв - в'X'Y + в'X'X в = (Y - Xв)'(Y - Xв)

Ліва частина в (1.1.6) досягає мінімуму при в = .

Далі позначимо = Х. Елементи вектора

e = Y - = Y - Х = (In - Х(Х'Х)-1Х')Y = (In - Р)Y (1.1.7)

називаються залишками (ми позначили тут скорочено Х(Х'Х)-1Х' через Р). Мінімальне значення е'е називається залишковою сумою квадратів (RSS)).

RSS = (Y - Х)'(Y - Х)= Y'Y - 2Х' Y + 'Х'Х =

= Y'Y - 'Х' Y + '[Х'Х - Х'Y] =

= Y'Y -'Х'Y (1.1.8)

Або

RSS = Y'Y - 'Х'Х (1.1.9)

Відмітимо, що і е єдині.

Оскільки = Х = Х(Х'Х)-1Х'Y = РY, то Р є матрицею лінійного перетворення, яке є ортогональним проектуванням n-мірного евклідова простору Еn на Щ. Аналогічно In - Р є матрицею ортогонального проектування Еn на - ортогональне доповнення до Щ в Еn. Тому вираз Y = РY + (In - Р)Y є єдиним ортогональним розкладом вектора Y на дві складові, одна з яких лежить в Щ, а інша - в . Деякі основні властивості матриць Р і (In - Р) наведено в теоремі 1.1.1. Спочатку сформулюємо деякі означення.

Означення. Слідом trX матриці Х називають суму її діагональних елементів

trX = 1 + x21 + x32 + … + xnp-1

Означення. Матриця Р називається ідемпотентною, якщо Р2 = Р. Симетрична ідемпотентна матриця називається проекційною. Якщо Р - проекційна матриця, то trР = rankР.

Теорема 1.1.1.

(I) Матриці Р і In - Р симетричні та ідемпотентнi.

(II) rank[In - Р] = tr[In - Р] = n - р.

(III) (In - Р)Х = 0.

Доведення.

(I) Р' = (X(X'X)-1X')' = X((X'X)-1)'X' = X(X'X)-1X' = P

Отже, матриця Р є симетричною і (In - Р)' = In - Р' = In - Р. Крім того,

Р2 = X(Х'Х)-1Х'Х(Х'Х) -1X' = XIp (Х'Х)-1X' = Р,

і (In - Р)2 = In - 2Р + P2 = In - Р.

(II) Оскільки матриця In - Р симетрична та ідемпотентна, то вона проекційна і tr(In - Р) = rank(In - Р). Тоді

rank[In - Р] = tr[In - Р] = n - trР,

де

trР = tr[X (Х'Х)-1X'] = tr[Х'Х (Х'Х)-1] = trIp = р.

(III) (In - Р)Х = Х - Х(Х'Х)-1Х'Х = Х - Х = 0.

Теорема доведена.

Теорема 1.1.2.

Нехай Р = X(Х'Х)-1X', тоді R(P) = R(X), тобто простір, породжений стовпцями матриці P є простором, породженим стовпцями матриці Х.

Доведення.

R(P) = {z: z = Pб} для деякого б, R(X) = {Y: Y = Xг} для деякого г.

Вибираємо zR(P), тоді z = Pб. Отже,

z = Pб = X(X'X)-1X'б = Xв,

отже zR(X).

Вибираємо YR(X), тоді Y = Xг

Y = Xг = X(X'X)-1X'Xг = X(X'X)-1X'Xг = PY,

отже YR(P).

Теорема доведена.

Теорема 1.1.3.

(Y - ) = 0 або

Доведення.

(Y - ) = { = X = X(X'X)-1X'Y = PY} = (PY)'(Y - PY) = Y'P'(1 - P)Y = = Y'P(1 - P)Y = Y'(P - P2)Y = Y'(P - P)Y = 0.

Теорема доведена.

Якщо припустити, що помилки е такі, що , то

M[] = (X'X)-1X'M[Y] = (X'X)-1X'X в = в (1.1.9)

тобто є незміщеною оцінкою вектора в. Якщо, окрім того, припустити, що всi еi, і = 1, …, n - некорельовані і мають однакову дисперсію, тобто

соv[еi, еj] = ,

то D[е] = у2In,

D[Y] = D[Y - Xв] = D[е], отже D[Y] = у2In.

Звідси одержуємо

D[] = D[(Х'Х)-1Х'Y] = сov((Х'Х)-1X'Y, (Х'Х)-1X'Y) =

= (X'X)-1X'cov(Y,Y)((X'X)-1X')' = (X'X)-1X'DYX(X'X)-1 =

= (X'X)-1X'у2IX(X'X)-1 = у2(X'X)-1(X'X) (X'X)-1 = у2(X'X)-1 (1.1.10)

Виникає таке питання: чому за оцінку вектора в ми вибираємо саме (оцінку найменших квадратів), а не будь - яку іншу оцінку? Далі покажемо, що в деякому розумному класі оцінок j, є оцінкою параметра вj з найменшою дисперсією. Цю оцінку j можна „виділити" з вектора = (0, 1, ..., p-1)' множенням зліва на вектор-рядок c', у якого (j +1)-й елемент рівний одиниці, а всі інші елементи дорівнюють нулю. Таку специфічну властивість оцінки j, можна узагальнити на випадок довільної лінійної комбінації а'. Для цього використовуємо наступну теорему.

Теорема 1.1.4.

Нехай - оцінка найменших квадратів вектора = Хв. Тоді в класі всіх лінійних незміщених оцінок лінійної комбінації c'и оцінка c' є єдиною оцінкою, яка має мінімальну дисперсію. (Будемо говорити, що c' є найкращою лінійною незміщеною оцінкою (НЛНО) для c'и)

Доведення.

Оцінку найменших квадратів вектора = Хв представимо у вигляді

= X = X(Х'Х)-1X'Y = X(Х'Х)-1X'Y = PY,

при цьому

PX = X(Х'Х)-1X'X = X(Х'Х)-1X'X = XI = X .

Перевіримо, що c' - лінійна незміщена оцінка для c'и. Дійсно,

M[c'] = Mc'РY = c'P MY = c'Pи = c'PXв = c'Xв = c'и

для всіх иЩ = [Х] і c' = c'PY = (P'c)'Y = (Рс)'Y. Розглянемо іншу лінійну незміщену оцінку для c'и. Тоді M[d'Y] = c'и з одного боку, а з іншого

M[d'Y] = d'MY = d'и,

Тоді

c'и = d'и (с' - d')и = 0 (с- d)'и = 0, тобто (c - d) Щ = R(X).

Оскільки R(X) = R(P) в силу теореми 1.1.2, то

(c - d) R(P), (c - d)'P = 0 ((c - d)'P)' = 0' P(c - d) = 0

Pc = Pd

Порахуємо дисперсію оцінки c':

Dc' = D[(Рd)'Y] = D[(Рd)'Y] = Dd'P'Y = cov(d'P'Y, d'P'Y) =

= d'P'cov(Y, Y)(d'P')' = d'PDYPd = d'Pу2IPd = у2d'Р2d = у2 d'Рd,

Тоді

D[d'Y] - D[c'] = D[d'Y] - D[(Рd)' Y] =

= d'DYd - у2d'Pd = у2d'd - у2d'Pd =

= у2(d'd - d'Рd) = у2d'(In - Р)d = {In - P = (In - P)2} =

= у2 d'(In - Р)(In - Р)d = {In - P = (In - P)'} =

= у2 d'(In - Р)'(In - Р)d = у2 [(In - Р)d]'[(In - Р)d] ? 0

Рівність нулю досягається тоді й тільки тоді, коли

(In - Р)d = 0

d - Pd = 0

d = Рd = Рс

Тоді D(d'Y) ? D(c'), при цьому c'и = d'и. Це і означає, що c' має мінімальну дисперсію і є єдиною оцінкою з такою властивістю в класі всіх лінійних незміщених оцінок лінійних комбінацій c'и.

Теорема доведена.

Теорема доведена в припущенні, що матриця X має ранг p, так що Р = X (Х'Х)-1X', і и =Хв випливає, що в = (Х'Х)-1Х'и.

Нехай с' = а'(Х'Х)-1X', тоді звідси оцінка а'в = a'(X'X)-1X' = с' є НЛНО з мінімальною дисперсією для а'в при кожному а.

Зауваження. Якщо похибки еі незалежні й однаково розподілені е ~ або, в еквівалентній формі, Y ~ , то a' має мінімальну дисперсію серед усіх незміщених оцінок, а не тільки в класі лінійних незміщених оцінок.

Зокрема, МНК - оцінка і, і = 0, …, p - 1 є також оцінкою максимальної правдоподібності, і вона ефективна оцінка для ві.

Якщо ж розподіл еi не є нормальним, то МНК - оцінка і відрізняється від оцінки максимальної правдоподібності. В цьому випадку МНК - оцінка і асимптотично ефективна для ві.

Оцінимо параметр у2 = Dеi, але спочатку сформулюємо низку лем.

Лема 1.1.1. Нехай Y = Y(nЧ1) - випадковий вектор, А(nЧn) = A - симетрична матриця. Якщо MY = и, DY = ?, тоді математичне сподівання квадратичної форми Y'AY дорівнює

M(Y'AY) = tr(A?) + и'Aи

.Наслідок

Якщо ? = у2I, то tr(A?) = у2trA.

Лема 1.1.2.

Нехай маємо n незалежних випадкових величин Y1, Y2, …, Yn з середніми и1, и2, …, иn, однаковими дисперсіями м2 та однаковими третіми та четвертими центральними моментами м3 та м4 відповідно (мr = M(Yi - иi)r). Якщо A = = А(nЧn) - симетрична матриця, а a - вектор - стовпець, утворений її діагональними елементами, тоді дисперсія квадратичної форми Y'AY дорівнює

D(Y'AY) = (м4 - 3(м2)2)a'a + 2(м2)2trA2 + 4(м2)2и'A2и + 4м3и'Aa

Теорема 1.1.4.

Якщо

М[Y] = Xв, де Х = X(nЧp), rangX = p, D[Y] = у2 In,

тоді оцінка

є незміщеною оцінкою для у2.

Доведення.

Похибку е запишемо у вигляді:

е = Y - = Y - Х = { = (X'X)-1X'Y } = Y - X(X'X)-1X'Y =

= (In - X(X'X)-1X')Y = (In - Р)Y.

Тоді

(n - p)S2 = (Y - X)'(Y - X) = ((In - P)Y)'((In - P)Y) = Y'(In - P)'(In - P)Y = {(In - P)' = In - P - симетрична} =Y'(In - P)2Y = Y'(In - P)Y.

Виразимо Y'(In - P)Y з рівності:

(Y - Xв)'(In - P)(Y - Xв) = Y'(In - P)Y - Y'(In - P)Xв - (Xв)'(In - P)Y + (Xв)'(In - P)Xв;

Y'(In - P)Y = (Y - Xв)'(In - P)(Y - Xв) + Y'(In - P)Xв + (Xв)'(In - P)Y - (Xв)'(In - P)Xв.

Порахуємо M(n - p)S2

M(n - p)S2 = MY'(In - P)Y = {лема 1.1.1} = M(Y - Xв)'(In - P)(Y - Xв) +

+ MY'(In - P)Xв + M(Xв)'(In - P)Y - M(Xв)'(In - P)Xв =

= M(Y - Xв)'(In - P)(Y - Xв) + (Xв)'(In - P)Xв + (Xв)'(In - P)Xв -

- (Xв)'(In - P)Xв = M(Y - MY)'(In - P)(Y - MY) =

= + (Xв)'(In - P)Xв =

= + (Xв)'(In - P)Xв =

= + (Xв)'(In - P)Xв =

= у2(p11 + p22 + … + pnn) + в'X'(In - P)Xв =

= у2tr(In - P) + в'X'(In - P)Xв = =

= у2(n - p) + 0 = у2(n - p)

Отже,

M(n - p)S2 = у2(n - p) MS2 = у2.

Теорема доведена.

Виявляється, що S2, подібно до , має певні властивості оптимальності, які наведено в наступній теоремі.

Теорема 1.1.5.

Нехай Y1, Y2, …, Yn - незалежні випадкові величини, які мають однакові дисперсії м2 = 3у2 і однакові треті та четверті моменти м3 і м4. Якщо M[Y] = Xв, де матриця Х = Х(n Ч p), rangX = p, то DY = у2I і (n - p)S2 є єдиною невід'ємною квадратичною незміщеною оцінкою для (n - p)у2, яка має мінімальну дисперсію при м4 = 3у4 або при рівності всіх діагональних елементів матриці P.

Доведення.

Оскільки у2 > 0, то будемо розглядати тільки невід'ємні оцінки.

Нехай Y'АY незміщена квадратична оцінка для (n - р)у2. Порахуємо математичне сподівання та дисперсію оцінки Y'АY

(n - р)у2 = M[Y'АY] = у2 trА + в'Х'АХв

для всіх в, тоді trА = n - р і в'Х'АХв = 0 для всіх в. Отже, Х'АХ = 0 А- додатньо напіввизначена симетрична матриця з Х'АХ = 0 випливає, що АХ = 0.

Позначимо а - вектор, утворений діагональними елементами матриці А і г2 = (м4 - 3у4)/у4, тоді згідно з лемою 1.1.2,

D[Y'АY] = (м4 - 3(м2)2)a'a + 2(м2)2trA2 + 4(м2)2(Xв)'A2(Xв) + 4м3(Xв)'Aa =

= = (м4 - 3(м2)2)a'a + 2(у2)2trA2 + 4(у2)2в'X'AXв +

+ 4м3в'(AX)'a = у4 г2 а'а + 2у4 trА2 . (1.1.11)

Далі розглянемо оцінку (n - р)S2, яка належить класу незміщених квадратичних оцінок для (n - р)у2 згідно з теоремою 1.1.4

(n - р)S2 = (Y - X)'(Y - X) = Y(In - Р)Y = Y'RY

(де для стислості, введене позначення In - Р = R), trR2 = trR = n - р.

Розглянемо D[Y'RY]:

D[Y'RY] = у4 г2 r'r + 2у4trR2 = у4 г2 r'r + 2у4 (n - р). (1.1.12)

де r - вектор, утворений діагональними елементами матриці R.

Для того, щоб знайти достатні умови для мінімальності дисперсії оцінки Y'АY, покладемо А = R + D. Оскільки A та R симетричні, то матриця D також симетрична і trА = trR + trD.

Підставляємо: (n - p) = (n - p) + 0 таким чином, trD = 0. Оскільки АХ = 0, то АР = АХ(Х'Х)-1X' = 0, тоді

A = R + D

AP = RP + DP

AP = P - P2 + DP

0 = P - P + DP

DP = 0

Тоді

DR = D - DP = D - 0 = D

(останнє рівне також D = D' = RD, так як D симетрична).

Позначимо a = r + d, r - вектор діагональних елементів матриці R, d- вектор діагональних елементів матриці D.

A2 = (R + D)2 = R2 + DR + RD + D2 = R + 2D + D2

tr A2 = trR + 2trD + trD2 = (n - р) + trD2.

Підставляючи а = r + d і tr A2 в (1.1.11), одержуємо

D[Y'АY] = у4 г2 a'а + 2у4trA2 = у4 г2(r + d)'(r + d) + 2у4(n - p + trD2) =

= у4 г2(r' + d')(r + d) + 2у4(n - p + trD2) =

= у4 г2(d'r + d'd + r'r + r'd) + 2у4(n - p + trD2) =

= у4г2 r'r + 2у4(n - p) + 2у4 =

= D[Y'RY] + 2у4 .

Щоб знайти оцінку з мінімальною дисперсією, потрібно мінімізувати D[Y'АY] за умов tr D = 0 і DR = D. У загальному випадку виконати таку мінімізацію досить важкою. Проте в двох важливих окремих випадках ця мінімізація виконується не важко. Перший випадок - це ситуація, коли г2 = 0 При цьому

D[Y'AY] = D[Y'RY] + 2у2

Остання ж величина досягає мінімуму, коли dij = 0 для всіх i, j, тобто коли D = 0 і А = R. Другий випадок - це випадок рівності всіх діагональних елементів матриці Р. При цьому всі вони рівні р11 = p22 = … = pnn

trR = trI - trP = n - p tr Р = р.

Тому

р11 + p22 + … + pnn rii = p

npii = p pii = p/n

Тоді діагональні елементи матриці R = (I - P) дорівнюють rii = 1 - pii = 1 - p/n = (n - р)/n для кожного і

D[Y'AY] = D[Y'RY] + 2у4(=

= =

= D(Y'RY) + 2у4 =

= D[Y'RY] + 2у4, (1.1.13)

Далі для будь-якої випадкової величини о виконується нерівність г2 ?-2. Дійсно,

0 ? D(о - Mо)2 = M(о - Mо)4 - (M(о - Mо)2)2 = м4 - (м2)2 =

= м4 - 3(м2)2 + 2(м2)2 = (м2)2(м4 / (м2)2 - 3 + 2) =

= = (м2)2(г2 + 2), отже г2 ? -2

отже D[Y'АY] досягає мінімуму, коли dij = 0 для всіх i, j. Таким чином, в обох випадках дисперсія виявляється мінімальною тоді і тільки тоді, коли А = R. Теорема доведена. Доведена теорема говорить про те, що незміщена квадратична оцінка для у2, з мінімальною дисперсією існує тільки при певних обмеженнях, наведених в теоремі. У припущенні нормальності, тобто при г2 = 0, оцінка S2 є незміщеною оцінкою для у2, яка має мінімальну дисперсією в класі всіх незміщених оцінок, а не тільки в класі квадратичних незміщених оцінок. Раніше ми припускали відносно похибок еi, що M[е] = 0 і D[е] = у2In. Якщо додатково припустити, що похибки еi розподілені нормально, тобто е ~ Nn(0, у2In) (отже Y ~ Nn(Xв, у2In)), то можна одержати низку наступних результатів, пов'язаних з розподілами.

Теорема 1.1.6. Якщо Y ~ Nn(Xв, у2In), де Х = Х(nЧp), rangX = p, тоді

(I) ~ Np(в, у2(X'X)-1);

(II) ( - в)'X'X( - в)/у2 ~ ;

(III) не залежить від S2;

(IV) RSS/у2 = (n - p)S2/у2 ~ .

Доведення. (I) МНК - оцінка вектора в має вигляд = (Х'Х)-1Х'Y, тоді = СY, де C = (Х'Х)-1Х' - матриця розміру рЧn, для якої rangС = rang(Х'Х)-1Х' = rangХ-1(Х')-1X' = rangХ-1 = p. Вектор Y ~ Nn(Xв, у2In). Генератриса моментів для вектора дорівнює

M = M.

M(t) = M= M= = M= = =

- генератриса моментів , де cXв = (X'X)-1в = в,

cу2Ic' = (X'X)-1X'у2I((X'X)-1X')' = у2(X'X)-1X'X(X'X)-1 = у2(X'X)-1.

Генератриса функції моментів нормального розподілу о ~ N(a; у2):

M(t) = Metо = ,

Генератриса моментів для вектора однозначно визначає щільність розподілу вектора і дорівнює M(t) = Met', , t = (t1, t2, …, tp)'

(II) ( - в)'Х'Х( - в)/у2 = =

= ( - в)'(D)-1( - в) = (1 - в1, …, p - вp)(D)-1 =

= (D)-1

~ N(в; у2(X'X)-1),

- в ~ N(0; у2(X'X)-1),

, тоді . Отже, .

(III) Необхідно довести, не залежить від S2. Порахуємо cov(,Y-X)

cov(, Y - X) = cov((X'X)-1X'Y, Y - X(X'X)-1X'Y) =

= cov((X'X)-1X'Y, Y - PY) = cov((X'X)-1X'Y, (I - P)Y) =

= (X'X)-1X'cov(Y, Y)(I - P)' = {(I - P)' = I - P} =

= (X'X)-1X'DY(I - P) = {DY = у2} = (X'X)-1X'у2I(I - P) =

= у2(X'X)-1X'(I - P) = = 0

Залишилось скористатись наступною теоремою:

Нехай Y ~ N(Xв; у2I), U = AY, V = BY, матриця А1 складена з лінійно незалежних рядків матриці А, U1 = A1Y. Якщо cov(U, V) = 0, то

1) випадковий вектор U1 не залежить від V'V;

2) випадкові величини U'U та V'V незалежні.

Позначимо

U1 = , V = Y - X, U = U1 =

U1 = (X'X)-1X'Y, V = Y - X = (I - P)Y.

Оскільки cov(U1, V) = 0, тоді U1 = не залежить від V'V=(Y - X)'(Y - X) = = (n - p)S2.

(IV) Розглянемо

Q1 = (Y - Xв)'(Y - Xв) = (Y - X + Х( - в))'(Y - X + X( - в)) =

= (Y - X)'(Y - X) + (Y - X)'X ( - в) + ( - в)'X'(Y - X) +

+ ( - в)'X'X ( - в) =

= =

= (Y - X)'(Y - X) + ( - в)'X'X ( - в) = Q + Q2. (1.1.15)

Тут ми позначили

(Y - X)'(Y - Х) = Q, (- в)'Х'Х( - в) = Q2.

При цьому відношення

Q1/у2 = = (еi ~ N(0; у2), еi /у ~ N(0; 1)), Q2/у2 ~ .

Отже, Q = Q1 + Q2, Q1 ~ , Q2 ~ (n > p). Тому Q/у2 = Q1/у2 - Q2/у ~ ~.

Теорема доведена.

Нехай лінійна модель регресії має вигляд Y = Xв + е, X = X(n Ч p), rangX = p, е ~ N(0; у2I).

Необхідно оцінити параметр в, при лінійних обмеженнях H: Aв = c,

де А = А(q Чp) - відома матриця, c = c(qЧ1) - відомий вектор. (1.1.16)

Обмеження (1.1.16) можна переписати у вигляді:

H: Aв = c

H: в = ,

де a'i - i-тий рядок матриці А

H: a'i в = ci , i = 1, 2, …, q.

Використаємо метод множників Лагранжа для розв'язання цієї задачі.

В подальшому будемо використовувати такий вираз:

л1(a'1в - с1) + л2(a'2в - с2) + … + лq(a'qв - сq) =

= (л1, л2, …, лq) = л'(Aв - c) = (л'(Aв - c))' =

= (Aв - c)'л = (в'A' - c')л (1.1.17)

Мінімізуємо суму квадратів залишків е'е при лінійних обмеженнях H:

Aв = c.

r = е'е + л1(a'1в - с1) + … + лq(a'qв - сq) = е'е + (в'A' - c')л = (Y - Xв)'(Y - Xв) + (в'A' - c')л = (Y' - X'в') (Y - Xв) + (в'A' - c')л = Y'Y - Y'Xв - в'X'Y + в'X'Xв + (в'A' - c')л = Y'Y - 2в'X'Y + в'X'Xв + в'A'л - c'л

З (1.1.18) випливає, що

X'Xв = X'Y - A'л

= (X'X)-1X'Y - (X'X)-1A' (1.1.20)

= - (X'X)-1A' (1.1.21)

Формулу (1.1.21) підставляємо в (1.1.19)

c = A = A- (X'X)-1A'

c - A= - (X'X)-1A'

(A(X'X)-1A')-1(c - A) = -

Останнє підставляємо в (1.1.21)

= + (X'X)-1A'(A(X'X)-1A')-1(c - A)

мінімізує е'е при обмеженнях Aв = c.

1.2 F-критерій

Розглянемо лінійну модель Y =Хв + е, в якій матриця X має розмір nр і ранг р, е ~ Nn(0, у2In). Нехай ми хочемо перевірити гіпотезу H: Ав = c, де А - відома (qp) - матриця рангу q, а с - відомий (q1) - вектор. Позначимо

RSS = (Y -X)'(Y-X) = (n - p)S2

RSSH = (Y -XH)'(Y-XH)

Де H = + (Х'Х)-1А'[А(Х'Х)-1А']-1(с-А), (1.2.1)

і RSSH - мінімальне значення е'е при обмеженнях Ав = с.

Теорема 1.2.1.

(I) RSSH - RSS = (А- c)' [А (Х'Х)-1 А']-1 (А- c),

(II) М [RSSH - RSS] = у2q + (Ав -с)' [А(Х'Х)-1А']-1(Ав - с).

(III) Якщо гіпотеза Н: Ав = с справедлива, то статистика

F =

має розподіл Фішера Fq,n-p (F-розподіл з q і n - p ступенями вільності відповідно).

(IV) Якщо с = 0, то статистика F приймає вигляд

F = ,

де РH - симетрична і ідемпотентна матриця і РНP = PРН = РН

Доведення.

(I) Спочатку доведемо тотожність:

||Y - XH||2 = ||Y - X||2 + ||X( - H)||2

Розглянемо

||X( - )||2 = (X( - в))'X( - в) = ( - в)'X'X ( - в) = ( - H + H - в)'X'X ( - H + H - в) =

= ( - H)'X'X ( - H) + (H - в)'X'X (H - в) =

= 2((X'X)-1A')'X'X(H - в) = A(X'X)-1 X'X(H - в) = A(H - в) = (AH - Aв) = (c - c) = 0= (X(-H))'X( - H) + (X(H - в))'X(H - в) = ||X( - H)||2 + ||X(H- в)||2.

Далі,

е'е = (Y - Xв)'(Y - Xв) = ||Y - Xв||2 = (Y - X)'(Y - X) +

+ ( - в)'X'X( - в) = ||Y - X||2 + ||X( - в)||2

Підставляємо

||X( - в)||2:

е'е = ||Y - X||2 + ||X( - H)||2 + ||X( - в)||2

е'е досягає мінімального значення при ||X( - в)||2 = 0, тобто

X( - в) = 0

в = , Х ? 0 (оскільки стовпці Х лінійно незалежні)

Покладаючи в е'е в = , знаходимо

||Y - XH||2 = ||Y - X||2 + ||X( - H)||2

Тоді

RSSH - RSS = (Y - XH)'(Y - XH) - (Y - X)'(Y - X) =

= ||Y - XH||2 - ||Y - X||2 = ||X( - H)||2 = (X( - H))'(X( - H)) =

= ( - H)'X'X( - H) =

= =

= ((X'X)-1A'(A(X'X)-1A')-1(A - c))'X'X((X'X)-1A'(A(X'X)-1A')-1(A - c)) =

= (A - c)'(A(X'X)-1A')-1A(X'X)-1(X'X)(X'X)-1A'(A(X'X)-1A')-1(A - c) =

= (A - c)'(A(X'X)-1A')-1(A - c).

(II) Скористаємось лемою.

Нехай Y = Y(nЧ1) - випадковий вектор, A(nЧn) = A - симетрична матриця. Якщо MY = и, DY = ?, тоді

M(Y'AY) = tr(A?) + и'Aи.

Раніше, доведено, що

~ Np(в, у2(Х'Х)-1), A ~ Nq(Aв, у2A(Х'Х)-1A').

Позначимо Z = А - c і В = А(Х'Х)-1А'. Тоді

M[Z] = M(А - c) = A - c = = Ав - c і

D[Z] = D(А - c) = D[A] = у2B

Тоді

M[RSSH - RSS] = M[Z'В-1Z] = tr[у2В-1В] + (Ав - с)' В-1(Ав - с) =

= tr[у2Iq] + (Aв - c)'B-1(Aв - c) =

= у2q + (Aв - c)'B-1(Aв - c). (1.2.2)

(III) Відомо, що ~ Nq(в,у2А(Х'Х)-1), тоді

A ~ Nq(Aв, у2A(Х'Х)-1A') і

А - с ~ Nq(Aв - c, у2A(Х'Х)-1A'),

, тоді .

Розглянемо (RSSH - RSS)/у2

= (А - с)' (D[А])-1(А - с),

Раніше доведено, що RSS/у2 ~ (теорема 1.1.6 (IV)), тоді статистика

при справедливій гіпотезі Н має вигляд [/q]/[/(n - р)]. Отже, якщо гіпотеза Н справедлива, то F ~ Fq,n-p.

(IV) Нехай у виразі (1.2.1) c = 0, тоді маємо

= X(H - (Х'Х)-1А'[А(Х'Х)-1А']-1А) = X -

- X(Х'Х)-1А'[А(Х'Х)-1А']-1А =

= X(Х'Х)-1 Х'Y - X(Х'Х)-1А'[А(Х'Х)-1А']-1А(Х'Х)-1 Х'Y =

={X(Х'Х)-1X' - X(Х'Х)-1А'[А(Х'Х)-1А']-1А(Х'Х)-1Х'}Y= (Р-Р1)Y, (1.2.3)

Тобто

(1.2.4)

де РH - симетрична матриця. Спростивши вираз для матриці Р1, знаходимо, що Р1 симетрична і ідемпотентна і Р1Р = РР1 = Р1. Звідси одержуємо

= Р2 - Р1P - РP1 + = P - 2P1 + P1 = P - P1 = PH (1.2.5)

PHP = (P - P1)P = P - P1 = PH (1.2.6)

і РРH = РH (останнє одержуємо транспонуванням).

Y - X = Y - X(Х'Х)-1 Х'Y = Y(I - X(Х'Х)-1 Х') = (I - P)Y.

Тоді

RSS = (Y - X)'(Y - X) = ((I - P)Y)'(I - P)Y =

= Y'(I - P)'(I - P)Y = Y'(In - Р)Y

Aналогічно

RSSH = (Y - XH)'(Y - XH) = Y'(In - РH)Y. (1.2.7)

Таким чином,

RSSH - RSS = Y'(In - РH)Y - Y'(In - Р)Y = Y'(I - РH - I + P)Y = Y'(P - РH)Y.

Отже,

Теорема доведена.

F - критерій для перевірки гіпотези H: Aв = c.

Гіпотезу H: Aв = c відхиляють при

і не відхиляють в супротивному разі. Рівень значущості критерію б.

1.3 Лінійна одновимірна регресія

Нехай Yi = в0 + в1xi + еi (i = 1,2, …, n) і ми хочемо перевірити гіпотезу H: в1 = 0. Тоді X = (In, x),

, ,

Підставляючи ці вирази у формулу = (X'X)-1X'Y, після деяких спрощень одержуємо

0 = (1.3.1)

= 0 + 1xi = (1.3.2)

Нарешті, знаходимо вираз для F- статистики

(1.3.3)

Де

Помітимо, що з (1.3.4) випливає, що

Де

є квадратом вибіркового коефіцієнта кореляції між Y і х. Відношення r є мірою ступені лінійності зв'язку меж Y і х, оскільки, згідно з (1.3.5),

RSS = (1.3.6)

Отже, чим більше значення г2, тим менше RSS і, тим краще підібрана пряма відповідає спостереженням.

1.4 Порівняння прямих регресій. Критерій паралельності прямих. Критерій збігу прямих

Нехай необхідно порівняти K ліній регресій

Y = бk + вkxk + е (k =1, 2, ..., K),

де M[е] = 0 і дисперсії D[е] = у2 однакові для всіх K ліній. Якщо для k-й лінії є nk пар спостережень (xki, Yki ) (i = 1, 2, ..., nk), то модель приймає вигляд

Yki = бk + вkxki + еki (k =1, 2, ..., nk), (1.4.1)

де еki - незалежні випадкові величини з розподілом N(0, у2).

Введемо позначення Y' = (Y11, Y12, …, Y1n1, …, YKn1, …, YKnk) запишемо модель у вигляді Y = Xг + е, де

Тут X -матріца розміру NЧ2K рангу 2К, а N = .

Використовуючи загальну теорію підрозділу 1.2, можна перевірити будь-яку гіпотезу вигляду Н:Аг = с. Дві гіпотези такого роду розглядаються нижче.

Критерій паралельності прямих

Розглянемо задачу перевірки паралельності всіх K ліній. Тоді гіпотеза

Н:Аг = с має вигляд H1: в1 = в2 = . . . = вK = в, або в1- вK = в2 - вK = ... = вK-1 - - вK = 0. У матричній формі H1 приймає вигляд

або Аг = 0, де А-матрица розміру (К- 1)Ч2K рангу K-1. Використовуючи загальну теорію регресії з q = K-1, n = N і р = 2К, одержуємо, що статистика критерія для перевірки гіпотези H1, має вигляд

(1.4.2)

Для знаходження RSS необхідно мінімізувати

S = е'е = .

Продиференціюємо S по бk та вk

З перших K рівнянь системи знаходимо, що

Підставляємо бk в (1.4.4)

(1.4.5)

Тоді Підставляємо оцінки в S. Знаходимо

RSS =

(1.4.6)

Для знаходження мінімізуємо суму S = відносно б і в. Продиференціюємо S по бk та в

(k = 1, 2, …, K)

З перших K рівнянь системи знаходимо

Підставляємо знайдені бk в друге рівняння системи

Тоді

Підставляючи оцінки в S, знаходимо

Отже, гіпотезу H1: в1 = в2 = . . . = вK = в відхиляємо при

і не відхиляємо в супротивному разі. Рівень значущості критерію б.

Критерій збігу прямих

Для вирішення питання про збіг всіх K ліній регресії розглянемо гіпотезу H2: б1 = б2 = ... = бK і в1 = в1 = ... = вK, або, що те ж саме, H2: б1- бK = = б2 - бK = ... = бK-1 - бK = 0 і в1 - вK = ... = вK-1 - вK = 0.

В матричній формі гіпотеза H2 приймає вигляд:Aг = 0, зокрема

Матриця А має розмір (2K-2) рядків, 2K стовпців (ранг 2М - 2).

F - статистика для перевірки гіпотези H2 має вигляд

(1.4.7)

рефераты
РЕФЕРАТЫ © 2010