INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     dialect
    -0.08
     Dob
    -0.07
     تب
    -0.07
     Robertson
    -0.07
     tongue
    -0.07
    Et
    -0.07
     unravel
    -0.07
    -0.07
    itere
    -0.06
     tribes
    -0.06
    POSITIVE LOGITS
    Max
    0.18
     Max
    0.18
     max
    0.17
    max
    0.17
    MAX
    0.16
     MAX
    0.14
    (max
    0.14
    _max
    0.14
    	max
    0.13
    .max
    0.13
    Act Density 0.027%

    No Known Activations