INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     μία
    0.72
    یتے
    0.69
    ä
    0.68
     télévision
    0.67
     contento
    0.65
     ان
    0.63
     ایک
    0.63
     lucro
    0.63
    一個
    0.62
    ूर्ति
    0.62
    POSITIVE LOGITS
    is
    1.05
    м
    1.02
    n
    1.01
    y
    0.94
    l
    0.93
    ם
    0.88
    AM
    0.86
    ко
    0.85
    A
    0.85
    at
    0.83
    Act Density 0.008%

    No Known Activations