INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ക്കിയി
    0.59
    ড্রিম
    0.56
    द्धाल
    0.54
     druż
    0.54
     dalších
    0.54
    স্থানীয়
    0.54
    [multimodal]
    0.54
    عرِّف
    0.54
    Jährige
    0.54
     infrastrukt
    0.54
    POSITIVE LOGITS
     
    0.82
     P
    0.78
    0.68
     C
    0.68
     )
    0.67
    ↵↵
    0.66
     D
    0.65
     F
    0.65
     L
    0.65
     V
    0.64
    Act Density 0.002%

    No Known Activations