{ "cells": [ { "cell_type": "markdown", "id": "e2285b98", "metadata": {}, "source": [ "# Egzamin: przykład\n", "\n", "To jest przykładowy egzamin końcowy z kursu **Statystyka** dla kierunku **Sztuczna inteligencja i kognitywistyka**. Zadania dotyczą testowania hipotez i prostych modeli statystycznych w Pythonie.\n", "\n", "## Uwagi ogólne\n", "\n", "1. W zadaniach pojawia się formuła „przeprowadź odpowiedni test i opisz wyniki”. To znaczy, że nie wystarczy sam kod. W odpowiedzi powinny znaleźć się:\n", "- krótki opis wyniku wraz z kierunkiem różnicy albo relacji,\n", "- statystyki opisowe, np. proporcje, średnie, odchylenia standardowe, mediany, korelacje albo współczynniki regresji,\n", "- statystyki inferencyjne, np. wartość statystyki testowej, stopnie swobody, p-wartość,\n", "- wielkość efektu, jeżeli umiesz ją sensownie policzyć.\n", "2. W przypadku testów posiadających wersje kierunkowe możesz użyć wersji kierunkowej odpowiadającej treści zadania albo wersji dwustronnej. W opisie napisz, którą wersję testu stosujesz.\n", "3. Dane są przygotowane tak, żeby dało się je wczytać przez zwykłe `pd.read_csv(...)`.\n", "4. Jeżeli zadanie wymaga wizualizacji, użyj czytelnego wykresu z opisanymi osiami." ] }, { "cell_type": "code", "execution_count": null, "id": "7db87487", "metadata": {}, "outputs": [], "source": [ "from pathlib import Path\n", "\n", "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "from scipy import stats\n", "import statsmodels.formula.api as smf\n", "from IPython.display import display\n", "\n", "DATA_DIR = Path(\"data\")\n", "\n", "sns.set_theme(style=\"whitegrid\")\n", "plt.rcParams[\"figure.figsize\"] = (8, 4.5)\n", "plt.rcParams[\"figure.dpi\"] = 120" ] }, { "cell_type": "markdown", "id": "56b1941a", "metadata": {}, "source": [ "## Zadanie 1 (test dwumianowy) (1 pkt)\n", "\n", "W finałach mistrzostw świata w *League of Legends* w 2023 roku rozegrano 79 meczów. W grze tej w meczu mierzą się dwie drużyny. Drużyny mają swoją bazę po dwóch stronach mapy. Okazuje się, że drużyny po stronie czerwonej wygrały w 32 meczach, podczas gdy zespoły po stronie niebieskiej wygrały w 47 meczach.\n", "\n", "Czy mamy podstawy sądzić, że zespoły po stronie niebieskiej mają wyższą niż 50% szansę na zwycięstwo? Przeprowadź odpowiedni test i opisz wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "833d8458", "metadata": {}, "outputs": [], "source": [ "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "3ef8f036", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "cf810eb9", "metadata": {}, "source": [ "## Zadanie 2 (test z) (1 pkt)\n", "\n", "Jarmakowski-Kostrzanowski i Jarmakowska-Kostrzanowska (2016) skonstruowali polską adaptację Kwestionariusza Kodów Moralnych stworzonego przez Grahama i Haidta. Według teorii, na której oparty jest ten kwestionariusz, wyróżnia się pięć fundamentów moralnych: Troskę, Sprawiedliwość, Lojalność, Autorytet i Świętość.\n", "\n", "Badacze ustalili, że dla kodu moralnego Autorytetu średni wynik w populacji polskiej wynosi 2.68 z odchyleniem standardowym 0.92 na skali 0–5. Pewien student kognitywistyki przeprowadził badanie na 67 osobach studiujących filozofię. W przebadanej próbie średnia wynosiła 2.21 z odchyleniem standardowym 1.12.\n", "\n", "Czy mamy podstawy sądzić, że studenci filozofii mniej cenią moralną wagę autorytetu niż ogólna populacja? Przeprowadź odpowiedni test i opisz wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "476064a7", "metadata": {}, "outputs": [], "source": [ "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "2472f870", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "28aaf745", "metadata": {}, "source": [ "## Zadanie 3 (test zgodności $\\chi^2$) (1 pkt)\n", "\n", "W grze *Starcraft* gracze mierzą się w pojedynkach 1 na 1. Każdy gracz może wybrać jedną z trzech dostępnych ras: Protosów, Terran lub Zergów. W sezonie 55 rozgrywek na poziomie ligi *Platinum* wybierano rasy z następującą częstością:\n", "\n", "- Terranie: 6885 razy,\n", "- Zergowie: 6668 razy,\n", "- Protosi: 6081 razy.\n", "\n", "Czy prawdopodobieństwo wyboru każdej z ras jest równe? Przeprowadź odpowiedni test i opisz wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "9d788962", "metadata": {}, "outputs": [], "source": [ "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "83eb8a40", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "2c79f55c", "metadata": {}, "source": [ "## Zadanie 4 (test niezależności $\\chi^2$) (1 pkt)\n", "\n", "W 1929 roku Beckham przeprowadziła badanie dotyczące czarnych Amerykanów. Dane znajdują się w pliku `beckham_1929.csv`. Każdemu badanemu zadano trzy pytania:\n", "\n", "1. Czy uważasz, że czarni Amerykanie są szczęśliwi?\n", "2. Czy osobiście jesteś szczęśliwą osobą jako czarny Amerykanin?\n", "3. Czy czarni Amerykanie powinni być szczęśliwi?\n", "\n", "W pliku odpowiedzi podzielone są na kategorie według wykonywanego zawodu. Przeprowadź 3 testy $\\chi^2$ niezależności, po jednym dla każdego pytania, sprawdzające, czy odpowiedź zależy od profesji. Zinterpretuj wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "327fd6c0", "metadata": {}, "outputs": [], "source": [ "beckham = pd.read_csv(DATA_DIR / \"beckham_1929.csv\")\n", "beckham.head()\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "eb0981bf", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "2b3353fe", "metadata": {}, "source": [ "## Zadanie 5 (test t Studenta dla jednej próby) (1 pkt)\n", "\n", "Pewna grupa radykalnych językoznawców zastanawiała się nad semantyką nierzeczywistych okresów warunkowych. Zgodnie z pewną teorią z zakresu filozofii następnik w takim zdaniu warunkowym oceniany jest w świecie możliwym wyznaczonym przez poprzednik.\n", "\n", "Na przykład:\n", "\n", "> „Gdyby kangury nie miały ogonów, to wywracałyby się”.\n", "\n", "Ocenę tego, czy kangury wywracałyby się, dokonujemy z perspektywy świata możliwego, w którym nie mają ogonów.\n", "\n", "Sytuacja komplikuje się, jeśli rozważymy zdania, w których występuje zaimek osobowy. Badacze chcieli sprawdzić, co się dzieje, jeśli poprzednik wyznacza sytuację, w której zmienił się rodzaj gramatyczny jednego z referentów. Uczestnicy oceniali zdanie:\n", "\n", "> (Z) Jeżeli Kasia podda się tranzycji, to pójdziemy się z nim jak najszybciej spotkać.\n", "\n", "Badani wskazywali, czy zdanie (Z) jest dla nich akceptowalne, na skali od -3 do +3. W zbiorze `p_and_p` znajdują się oceny 30 rodzimych użytkowników języka polskiego.\n", "\n", "Czy zdanie (Z) możemy uznać za akceptowalne? Przeprowadź odpowiedni test, opisz i zinterpretuj jego wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "f4fc52ba", "metadata": {}, "outputs": [], "source": [ "p_and_p = np.array([\n", " 1, -1, 0, -1, 3, 0, -1, 1, 2, 1, -2, 0, 2, -1, -1,\n", " 1, 2, 1, 1, 1, 1, 2, 0, 2, 1, 1, 1, 1, 1, 2,\n", "])\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "ae618416", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "24ebefd8", "metadata": {}, "source": [ "## Zadanie 6 (test t Studenta dla prób niezależnych) (1 pkt)\n", "\n", "W eksperymencie udział wzięły 24 osoby. Uczestnicy zostali podzieleni na dwie grupy. W pierwszej grupie (n = 12) badani zostali poproszeni, aby przez 5 minut bawili się z wielką, owłosioną tarantulą. Pozostali uczestnicy (n = 12) podczas 5-minutowej sesji oglądali zdjęcia tej samej tarantuli na ekranie komputera. Następnie wszystkim badanym zmierzono poziom lęku za pomocą kwestionariusza.\n", "\n", "Czy mamy prawo sądzić, że interakcja z prawdziwą tarantulą zwiększa lęk w porównaniu do obcowania z jej zdjęciem? Przeprowadź odpowiedni test, przygotuj wizualizację wyników i opisz je." ] }, { "cell_type": "code", "execution_count": null, "id": "010093d8", "metadata": {}, "outputs": [], "source": [ "spider = pd.DataFrame(\n", " {\n", " \"Participant\": range(1, 25),\n", " \"Group\": [\"Picture\"] * 12 + [\"Real Spider\"] * 12,\n", " \"Anxiety\": [\n", " 30, 35, 45, 40, 50, 35, 55, 25, 30, 45, 40, 50,\n", " 40, 35, 50, 55, 65, 55, 50, 35, 30, 50, 60, 39,\n", " ],\n", " }\n", ")\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "00595aea", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "63bd5e21", "metadata": {}, "source": [ "## Zadanie 7 (test Wilcoxona) (1 pkt)\n", "\n", "Pewna neurolożka postanowiła zbadać wpływ rekreacyjnych narkotyków na objawy depresyjne. W tym celu przetestowała 20 bywalców klubów. 10 z nich otrzymało tabletkę Ecstasy, którą mieli wziąć w niedzielę. Drugie 10 zostało poproszonych, aby tylko pili alkohol.\n", "\n", "Poziom depresji mierzony był za pomocą *Beck Depression Inventory* w środę (`wedsBDI`) oraz w niedzielę (`sundayBDI`). Otrzymane dane nie miały rozkładu normalnego.\n", "\n", "Czy w grupie przyjmującej Ecstasy poziom depresji był wyższy w środę niż w niedzielę? Przeprowadź odpowiedni test, przygotuj wizualizację wyników i opisz rezultaty analiz." ] }, { "cell_type": "code", "execution_count": null, "id": "ec6e64a9", "metadata": {}, "outputs": [], "source": [ "drugs = pd.read_csv(DATA_DIR / \"drug.csv\")\n", "drugs.head()\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "29df271f", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "bbf3c639", "metadata": {}, "source": [ "## Zadanie 8 (test U Manna-Whitneya) (1 pkt)\n", "\n", "Pewien dociekliwy student postanowił pokazać, że popularna w niektórych kręgach pop-psychologia nie poprawia dobrostanu. W tym celu podzielił grupę znajomych (n = 20) losowo na dwie równe grupy. Dane znajdują się w pliku `books_happiness.csv`.\n", "\n", "Badanych z pierwszej grupy poprosił o przeczytanie poradnika samodoskonalenia (`book = 1`). Badani w drugiej grupie zostali poproszeni o lekturę powieści (`book = 2`). Następnie uczestnicy wypełnili kwestionariusz mierzący aktualny poziom szczęścia w życiu.\n", "\n", "Czy czytanie poradników samodoskonalenia sprawia, że jesteśmy szczęśliwsi? Przeprowadź odpowiedni test, przygotuj wizualizację wyników i opisz rezultaty." ] }, { "cell_type": "code", "execution_count": null, "id": "d99ff632", "metadata": {}, "outputs": [], "source": [ "books = pd.read_csv(DATA_DIR / \"books_happiness.csv\")\n", "books.head()\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "ed4c6a73", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "1253581e", "metadata": {}, "source": [ "## Zadanie 9 (test dla współczynnika korelacji r) (1 pkt)\n", "\n", "W pliku `ratings.csv` znajdują się dane dotyczące 81 wybranych konkretnych rzeczowników w języku angielskim. W kolumnie `meanSizeRating` znajduje się informacja o estymowanej wielkości obiektu, do którego odnosi się dany rzeczownik. W kolumnie `meanWeightRating` znajduje się estymacja wagi obiektu.\n", "\n", "Czy średnie estymacje wagi są skorelowane ze średnimi estymacjami wielkości? Przeprowadź odpowiedni test, przygotuj wizualizację danych i opisz wyniki." ] }, { "cell_type": "code", "execution_count": null, "id": "e43cdde4", "metadata": {}, "outputs": [], "source": [ "ratings = pd.read_csv(DATA_DIR / \"ratings.csv\")\n", "ratings.head()\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "e5e5ba6c", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] }, { "cell_type": "markdown", "id": "96e5ebaf", "metadata": {}, "source": [ "## Zadanie 10 (regresja liniowa) (2 pkt)\n", "\n", "W pliku `ratings.csv` znajdują się dane dotyczące 81 wybranych konkretnych rzeczowników w języku angielskim. W kolumnie `meanSizeRating` znajduje się informacja o estymowanej wielkości obiektu, do którego odnosi się dany rzeczownik. W kolumnie `meanFamiliarity` znajduje się średnia subiektywna estymacja częstości występowania danego rzeczownika.\n", "\n", "Czy można przewidzieć to, jak ludzie oceniają wielkość danego przedmiotu na podstawie tego, jak często ich zdaniem nazwa tego przedmiotu używana jest w języku? Odpowiedz na podstawie dopasowanego modelu statystycznego, przygotuj wizualizację danych i opisz wyniki analiz." ] }, { "cell_type": "code", "execution_count": null, "id": "49ed7bc9", "metadata": {}, "outputs": [], "source": [ "ratings = pd.read_csv(DATA_DIR / \"ratings.csv\")\n", "ratings.head()\n", "\n", "# Miejsce na Twój kod" ] }, { "cell_type": "markdown", "id": "2cb50671", "metadata": {}, "source": [ "### Odpowiedź\n", "\n", "*Miejsce na Twoją odpowiedź*" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "name": "python", "pygments_lexer": "ipython3" } }, "nbformat": 4, "nbformat_minor": 5 }