INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     lessening
    0.32
     appunto
    0.31
     Sebab
    0.29
    прочем
    0.27
     સંબંધ
    0.27
     Polski
    0.27
     fornire
    0.27
     Однако
    0.27
    することも
    0.26
     dilakukan
    0.26
    POSITIVE LOGITS
    5
    0.46
    6
    0.46
    8
    0.44
    9
    0.42
    4
    0.39
    7
    0.38
    0.35
    ֡
    0.35
     ஆகிய
    0.34
     ஆகியவற்ற
    0.33
    Act Density 0.138%

    No Known Activations