Exercise 2.4

  • Quote

    Exercise 2.4: Compute the relative information gain for an attribute A which takes a different value
    for each example (Assume that you are given 2n examples, which are distributed evenly between
    two classes). Can you spot the advantage of this rule compared to the regular information gain rule?
    Compare with an attribute B which splits the example set in exactly two halves with the correct
    classification.


    Problem in 2.2 war ja, dass unser Rem(A)=0 und somit A immer Priorität hat.


    In 2013 gab es ein ähnliches Beispiel, allerdings war hier H(A) Funktion so aufgebaut, dass sie in diesem Fall immer 0 ergeben hätte, und dadurch haben wir eine Division durch 0, und A hat immer die niedrigste Priorität.


    In unserem Fall aber ist H(A) = Summe [ Ea/V * log2(V/Ea) ]. Ea ist hier immer 1, und V immer die Anzahl der Beispiele, also haben wir immer 1/V * log(V) was aber mit ansteigenden V immer kleiner wird, und den GainR(A) = Gain(A) / H(A) immer größer/besser macht und somit ändert das nichts, sondern wird viel eher schlechter.


    Hat hier jemamd schon einen Ansatz? Muss man auch irgendwie beweisen, dass das H(A) = 0 ?

  • Wie rechnest du dir das H(A) aus? Ich komme da auf log_2(V) - mit V gegen unendlich wird dann H(A) auch unendlich. Kann es sein, dass du da die Summe verloren hast?


    Danke dir, ich habe die Summe vergessen! Ich summiere V-mal auf, dh V * 1/V * log(V) = log(V) und das steigt mit größerem V, was heißt dass der GainR mit steigendem V sinkt, und die Priorität dadurch niedriger wird!