INDEX
    Explanations

    asking questions or describing concepts

    New Auto-Interp
    Negative Logits
     бушлай
    0.60
     йөк
    0.55
     أج
    0.53
     кў
    0.52
    мә
    0.52
    0.52
     фараз
    0.51
    }$.,
    0.51
     çox
    0.50
     აღმასრულებელი
    0.50
    POSITIVE LOGITS
     waardoor
    1.23
     voor
    1.13
     omdat
    1.13
     waarbij
    1.13
     zonder
    1.12
     wanneer
    1.12
     waar
    1.08
     maar
    1.05
     hebben
    1.05
     aan
    1.02
    Act Density 0.004%

    No Known Activations