INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    がち
    -0.37
    =".
    -0.36
     goals
    -0.35
     CAM
    -0.35
    kam
    -0.35
    "?>
    -0.35
    ない
    -0.34
     cam
    -0.34
    POC
    -0.34
    di
    -0.34
    POSITIVE LOGITS
     уже
    1.02
     już
    1.02
     вже
    0.98
     Уже
    0.92
    Уже
    0.89
     כבר
    0.87
     уж
    0.85
     már
    0.84
     už
    0.80
     artık
    0.72
    Act Density 0.003%

    No Known Activations