Statistik Frage zur Sample size Bestimmung

  • Hallo,
    Wuerde einen Rat benoetigen ob ich am richtigen Weg bin.
    Ich habe folgendes Problem: Fuenf Fotoexperten begutachten Aufnahmen und bewerten sie
    auf einer vierstufigen Skalar von "unbedenklich" bis "jugendgefaehrdend". Da es eine ungerade Anzahl an
    Experten ist kann ich durch die Anwendung von einer Mehrheitswahl einen Konsens erstellen.
    Um ihre Uebereinstimmung mit dem Konsens festzustellen kann ich Cohen's Kappa berechnen.
    Der Grund warum ich das wissen will ist, da ich ein Computerprogramm entwickeln moechte welches diese Aufgabe
    uebernehmen soll. Es ist robuster da es jedesmal
    wenn es ein und das selbe Foto sieht zum gleichen Ergebnis kommt. Meine Frage ist daher wie ich berechnen kann
    wie viele Bilder/Samples ich brauche um statistisch besser zu sein als die Gruppe der Experten. Besser heisst in diesem
    Fall eine hoehere Uebereinstimmung mit dem Konsens der auch im Fall des Computers von einer Gruppe von Experten erstellt wurde.
    Ist dafuer Cohen's Kappa geeignet? Welchen Test sollte ich anwenden?
    Besten Dank fuer jeden Hinweis!

  • ich versteh die frage nicht ganz. ob dein algorithmus besser wird als die menschlichen experten hängt doch weniger von der sample-größe ab, sondern von der fehlerwahrscheinlichkeit deines algorithmus? sind die experten dein ground truth oder vergleichst du die entscheidung der experten mit dem ground truth?

    Otto: Apes don't read philosophy. - Wanda: Yes they do, Otto, they just don't understand
    Beleidigungen sind Argumente jener, die über keine Argumente verfügen.
    «Signanz braucht keine Worte.» | «Signanz gibts nur im Traum.»


    Das neue MTB-Projekt (PO, Wiki, Mitschriften, Ausarbeitungen, Folien, ...) ist online
    http://mtb-projekt.at

  • Hi,
    Ich nehme an das mein Algorithmus besser ist. Das ist genau das Problem. Ich wuerde gerne eine Kurve habe an der ich ablesen kann wenn mein Algorithmus das x-fache besser ist dann brauch ich nur 1/10 der Samples. Wenn er 2x-fache besser ist 1/20 usw. Von den Experten habe ich das Rating d.h. ich kann ein Kappa berechnen oder ggf auch eine Vergleich mit einem Konsens z.b. wenn ich durch majority vote einen Konsens bilde dann kann ich Kappas berechnen fuer jeden Experten vs des Konsens.


    Input: ist also das Rating der Experten und alles was man davon ablesen kann.
    Output: Die hypothetische Performance die der Algorithmus erreichen muss (ich wuerde annehmen ein Kappa das groesser ist als das der Experten) die statistisch signifikant besser ist als die Experten (alpha=0.01, power>=0.8)


    Die Experten untereinander sind sich nicht sehr einig. Haben also eine hohe Varianz. Mein Algorithmus ist besser und sich immer "einig" kommt ja da er ein Programm ist immer zum gleichen Ergebnis. Ich habe es versucht zu veranschaulichen als Grafik. Der Konsens ist in der Mitte (Quadrat). Die Experten sternfoermig entfernt vom Konsens. Je weiter weg sie sind desto "falscher" Lagen sie. Mein Programm ist veranschaulicht als Kreis mit "Error bars". Es wird nicht immer richtig liegen, jedoch naeher beim Konsens und weniger "Streuen".


    Hoffe das macht das Problem klarer :)
    IMG_20170513_173120.jpg