INDEX
    Explanations

    is followed by complement

    New Auto-Interp
    Negative Logits
     väldigt
    0.50
    めっちゃ
    0.48
     veldig
    0.47
     खासा
    0.46
     problematic
    0.44
     standout
    0.43
     categorize
    0.43
     categorized
    0.42
     जताई
    0.42
     grilled
    0.41
    POSITIVE LOGITS
     ควร
    0.35
     I
    0.32
    ایہ
    0.31
     مناسب
    0.31
     Should
    0.31
     forse
    0.31
     เหมาะ
    0.30
     Effective
    0.29
    elor
    0.29
     sollte
    0.29
    Act Density 0.001%

    No Known Activations