INDEX
    Explanations

    relationship and context descriptions

    New Auto-Interp
    Negative Logits
     스스로
    0.38
    是一種
    0.38
    这是一个
    0.37
     목적
    0.37
     purpose
    0.37
    本書
    0.37
    是一种
    0.36
     pudi
    0.36
     метою
    0.35
    تيجة
    0.35
    POSITIVE LOGITS
    出现在
    0.62
    发生在
    0.59
    适用于
    0.52
     بالنسبة
    0.52
     עבור
    0.49
    看向
    0.47
     توی
    0.46
    来自
    0.46
     عند
    0.46
    针对
    0.46
    Act Density 0.542%

    No Known Activations