INDEX
    Explanations

    options with parentheses

    New Auto-Interp
    Negative Logits
    0.52
    0.52
    0.51
    0.50
    TableHeader
    0.50
    0.49
     drivetrain
    0.49
    並沒有
    0.48
    ักษณะ
    0.48
    0.48
    POSITIVE LOGITS
    0.67
    英语
    0.56
    句子
    0.55
     中国
    0.53
    0.53
    0.52
    0.52
    0.52
     Китай
    0.52
    选择
    0.51
    Act Density 0.003%

    No Known Activations