INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    и
    0.51
    WICK
    0.49
    вле
    0.48
    ת
    0.47
    дро
    0.46
    об
    0.45
    кле
    0.45
    ма
    0.44
    д
    0.43
    сь
    0.43
    POSITIVE LOGITS
     Helvetica
    0.56
    兩個
    0.54
     ควร
    0.52
    應該
    0.50
     Agreed
    0.50
     agreeing
    0.50
     kev
    0.50
     আচরণ
    0.49
     Directions
    0.48
     গ্রহন
    0.48
    Act Density 0.002%

    No Known Activations