INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ありますが
    0.50
    がありますが
    0.45
     but
    0.43
     aber
    0.42
     nhưng
    0.41
    ましたが
    0.39
    했고
    0.37
     pero
    0.37
     mutta
    0.37
    idase
    0.36
    POSITIVE LOGITS
     تھی۔
    0.46
     ہے۔
    0.40
    }$.
    0.40
     ہیں۔
    0.39
    》。
    0.38
    0.38
     تھا۔
    0.37
     تھے۔
    0.36
     गोयल
    0.36
    ЕР
    0.36
    Act Density 0.002%

    No Known Activations