INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     edip
    -0.08
     francs
    -0.08
     į
    -0.08
    נסת
    -0.08
     occitan
    -0.08
    חים
    -0.08
    -0.08
     poursu
    -0.08
     fried
    -0.07
     kailangan
    -0.07
    POSITIVE LOGITS
    _roll
    0.08
     rollout
    0.08
    roll
    0.08
     roll
    0.08
     मोह
    0.08
    .roll
    0.07
    ilog
    0.07
    -roll
    0.07
     ema
    0.07
     publico
    0.07
    Act Density 0.003%

    No Known Activations