INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ために
    0.53
    าท
    0.52
    
    0.52
    0.50
    ی
    0.49
    ק
    0.49
    素晴らしい
    0.48
    s
    0.47
    重要な
    0.47
    ח
    0.47
    POSITIVE LOGITS
     pastime
    0.68
     Lieblings
    0.66
     favorite
    0.65
     🥰
    0.61
     favourite
    0.58
     préférences
    0.57
     nerdy
    0.56
     mantra
    0.54
     favoritas
    0.52
     favorites
    0.52
    Act Density 0.021%

    No Known Activations