INDEX
    Explanations

    confirming language abilities, of course

    New Auto-Interp
    Negative Logits
    いて
    0.41
    んば
    0.40
    0.40
    *((
    0.39
    的东西
    0.38
    0.37
    阅读
    0.37
    وني
    0.37
    0.37
    组织的
    0.37
    POSITIVE LOGITS
     당연
    0.68
     natürlich
    0.61
    當然
    0.60
     oczywiście
    0.60
     tentunya
    0.57
     évidemment
    0.57
     tentu
    0.56
    当然
    0.55
     obviously
    0.55
     Конечно
    0.55
    Act Density 0.013%

    No Known Activations