INDEX
    Explanations

    causality and explanation

    New Auto-Interp
    Negative Logits
     often
    0.59
    的一些
    0.58
     sometimes
    0.57
    บาง
    0.57
     иногда
    0.56
     często
    0.56
    有时
    0.54
     parfois
    0.53
     často
    0.50
     อาจ
    0.50
    POSITIVE LOGITS
     perquè
    0.50
     porque
    0.48
     BECAUSE
    0.48
     insures
    0.48
     because
    0.48
    Porque
    0.48
     itulah
    0.47
     کیونکہ
    0.47
     لأن
    0.46
    because
    0.46
    Act Density 0.031%

    No Known Activations