INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     benevolence
    0.46
    м
    0.43
    _
    0.43
    0.42
     benevolent
    0.41
     неко
    0.41
    ф
    0.40
    __
    0.39
    freq
    0.39
    safe
    0.39
    POSITIVE LOGITS
     Palace
    0.50
     spéciales
    0.50
     électriques
    0.49
     étoiles
    0.47
     estrés
    0.47
     spéciale
    0.46
     événement
    0.46
     Complexes
    0.46
     équipes
    0.45
     Rockets
    0.45
    Act Density 0.005%

    No Known Activations