PDA

View Full Version : [PROBLEM] - Block 2 Beispiel 3


12gauge
21-04-2005, 16:30
Hallo!
Ich versteh bei dem Beispiel Punkt 1 :D, Punkt 2 versteh ich nicht. Wie soll ich die Daten auf die Bins verteilen?

edit: Punkt scheint nun erledigt: wir haben eine 4x3 Matrix über die Bins mit ihren Subkategorien.
Wie kann ich mir nun die Wahrscheinlichkeiten aller Kombinationen (insgesamt 36) berechnen?

Bug
21-04-2005, 18:26
Einfach mit der Formel der bedingten Wahrscheinlichkeit
(Skriptum auf Seite 55 Folie 22)

leadpen
24-04-2005, 19:51
Hi!

Stehe anscheinend genauso an wie 12gauge.
Ich habe mir nun eine 3x4 Matrix zusammengebastelt, wobei die Zeilen (3) für die Bins steht un die Spalten für die Unterkategorie der Bins.
Daraus habe ich mir nun mit Formel Pij/P.j die bedingten Wahrscheinlichkeiten berechnet und ebenfalls in einer 3x4 Matrix dargestellt. Betrachtet werden allerdings nur jene, die der Klasse 1 (survived) angehören, 225 an der Zahl.
Muss ich nun alle sinnvollen Kombination an Werten dieser bedingten Wahrscheinlichkeiten ausmultiplizieren?

gpro
24-04-2005, 20:27
zu dem Bsp hät ich eine andere Frage.
Woher krieg ich die ganzen Wahrscheinlichkeiten?
Vor allem wie berechne ich P(class = survive, age = a, year = y, nodes = n)?
die brauch ich ja für die bedingte Wahrscheinlichkeit...

Bug
24-04-2005, 20:32
Vor allem wie berechne ich P(class = survive, age = a, year = y, nodes = n)?

Indem du die Anzahl der Personen die die Eigenschaften
class = survive
age = a
year = y
nodes = n
nimmst

und diese durch die Gesamtanzahl aller Personen dividierst.

leadpen
24-04-2005, 21:29
Die Kombination am wahrscheinlichsten zu überleben lautet wie folgt:
50 bis 59 Jähriger
Operation zwischen 1960 und 1964
Anzahl der Knoten 0-9

Bekommt ihr das auch raus?

EnriqueS
25-04-2005, 13:13
Indem du die Anzahl der Personen die die Eigenschaften
class = survive
age = a
year = y
nodes = n
nimmst

und diese durch die Gesamtanzahl aller Personen dividierst.

bist du dir sicher dass dus durch die geamtanzal aller personen dividieren musst?

hat für mich nicht viel sinn:

angenommen du hast nur 2 gruppen - A & B -
gruppe A: 1000 beobachtungen - 500 überleben
gruppe B: 100 beobachtungen - 100 überleben

also hast du ja in gruppe B theoretisch 100% überlebenchancen - wennst die 100 jetzt aber durch 1100 dividierst hast auf einmal nur mehr 9,1 % überlebenschancen - macht für mich nicht viel sinn..

ich habs jeweils durch die anzahl der gruppen dividiert - mir kommen folgende wsk raus:

, , nodes 1, survived

year 1 year 2 year 3
age 1 0.8571429 1.0000000 0.7777778
age 2 0.6923077 0.7941176 0.6666667
age 3 0.7647059 0.8604651 0.7307692
age 4 0.6470588 0.7600000 0.8064516

, , nodes 2, survived

year 1 year 2 year 3
age 1 1.0000000 1.0000000 1.0000000
age 2 0.3333333 0.3333333 1.0000000
age 3 0.0000000 0.2500000 0.3333333
age 4 0.0000000 0.0000000 0.3333333

, , nodes 3, survived

year 1 year 2 year 3
age 1 1 NaN 0.0000000
age 2 0 0.3333333 0.0000000
age 3 NaN 0.0000000 0.6666667
age 4 NaN 0.6666667 1.0000000

ein problem gibts mit den [i,j,k] klassen in denen es gar keine beobachtungen gibt (z.b. [3,1,3]) da kann man sich natürlich keine überlebenswsk ausrechnen -> NaN

man sieht dass es mehrere klassen gibt die überlebenswsk 1 haben, die frage is nur wie aussagekräftig das ist - hängt mit der anzahl der beobachtungen in den einzelnen klassen zusammen

lg

Bug
25-04-2005, 20:22
bist du dir sicher dass dus durch die geamtanzal aller personen dividieren musst?


Ja, da bin ich mir sicher, da ich nur die beschrieben habe, wie man die Wahrscheinlichkeit P(class = survive, age = a, year = y, nodes = n) berechnent.

Und dies ist eben genau die Laplace-Wahrscheinlichkeit (günstige dividiert durch mögliche).

Bei diesem Beispiel mußt du nicht unbedingt die Division durchführen, da sich im Endeffekt die Gesamtanzahl wieder rauskürzt (bei der bedingten Wahrscheinlichkeit P(class = survive | age=a, year=y, node=n) )

EnriqueS
25-04-2005, 22:16
Ja, da bin ich mir sicher, da ich nur die beschrieben habe, wie man die Wahrscheinlichkeit P(class = survive, age = a, year = y, nodes = n) berechnent.

ok du hast recht

P(class = survive, age = a, year = y, nodes = n) berechnet man so wie du gmeint hast, das war aber nicht gefragt

gefragt war
P(class = survive | age = a, year = y, nodes = n)

und damit kannst du nicht mehr einfach das ganze durch die gesamtanzahl dividieren..

hab nicht gesehen dass gpro nicht genau denselben ausdruck wie aus der angabe hingeschrieben hat, denk aber trotzdem dass er dasselbe meint wie ich & sich vertan hat..

mfg

Bug
25-04-2005, 22:36
ok du hast recht

P(class = survive, age = a, year = y, nodes = n) berechnet man so wie du gmeint hast, das war aber nicht gefragt

gefragt war
P(class = survive | age = a, year = y, nodes = n)


P(class = survive, age = a, year = y, nodes = n) ist zwar nicht gefragt, aber du brauchst es trotzdem, denn

P(class = survive | age = a, year = y, nodes = n) = P(class = survive, age = a, year = y, nodes = n) / P(age = a, year = y, nodes = n)

EnriqueS
25-04-2005, 23:01
P(class = survive, age = a, year = y, nodes = n) ist zwar nicht gefragt, aber du brauchst es trotzdem, denn

P(class = survive | age = a, year = y, nodes = n) = P(class = survive, age = a, year = y, nodes = n) / P(age = a, year = y, nodes = n)

ok das is dasselbe.. ich hab nicht die wahrscheinlichkeiten ausgerechnet und die dann dividiert, sondern gleich die anzahl der überlebenden einer klasse durch die klassengröße

ich hab halt nicht dran gedacht mir wsk wie P(class = survive, age = a, year = y, nodes = n) auszurechnen, weil diese zahlen überhaupt nichts über überlebenschancen aussagen wenn man sie einzeln betrachtet.

is egal, hauptsach es kommt dasselbe raus, nur der unterschied zwischen P(class = survive | age = a, year = y, nodes = n) und P(class = survive, age = a, year = y, nodes = n) scheint halt hier nicht allen ganz klar gewesen zu sein, sonst würde nicht oben stehen, dass die gruppe mit den meisten überlebenden (absolut) die mit den besten überlebenschancen ist.

mfg

leadpen
26-04-2005, 00:31
und welche Kombination bekommt ihr raus, wenn ihr nach der größten Wahrscheinlichkeit zu überleben sucht?
Ebenfalls
50 bis 59 Jähriger
Operation zwischen 1960 und 1964
Anzahl der Knoten 0-9 ?

Bitte um comments,

EnriqueS
26-04-2005, 16:59
und welche Kombination bekommt ihr raus, wenn ihr nach der größten Wahrscheinlichkeit zu überleben sucht?
Ebenfalls
50 bis 59 Jähriger
Operation zwischen 1960 und 1964
Anzahl der Knoten 0-9 ?

Bitte um comments,
naja in der gruppe von der du sprichst gibts 37 überlebende und 6 tote

also is die überlebenchance bei 86%

in der gruppe age 30-39; year 60-64; nodes 0-9 haben 17 von 17 überlebt - also ist dort die überlebenswahrscheinlichkeit 100 %

es gibt noch andere gruppen mit 100 % überlebenswahrscheinlichkeit, die haben aber teilweise zu wenige beobachtungen, als dass das aussagekräftig wäre.

mfg