INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     from
    -1.41
    оо
    -0.95
    จาก
    -0.95
    からの
    -0.91
    来自
    -0.88
    から
    -0.87
     gesamten
    -0.86
     других
    -0.85
    FROM
    -0.85
    からは
    -0.84
    POSITIVE LOGITS
     beginning
    1.34
     end
    1.18
     corner
    0.93
    beginning
    0.88
     edge
    0.85
     top
    0.83
    0.82
     left
    0.81
     generously
    0.80
     first
    0.79
    Act Density 0.022%

    No Known Activations