INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Rad
    0.48
     basically
    0.41
    adoria
    0.40
    ارق
    0.40
    エンド
    0.40
    ாது
    0.39
    Cotton
    0.39
    Rad
    0.38
     };
    0.38
     Std
    0.38
    POSITIVE LOGITS
     exceptions
    0.53
     Exceptions
    0.52
    exceptions
    0.49
     exception
    0.48
     แต่
    0.46
    但是在
    0.46
     しかし
    0.46
     그러나
    0.45
     إلا
    0.45
    Namun
    0.43
    Act Density 0.017%

    No Known Activations