INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    л
    0.96
    м
    0.80
    0.73
    ل
    0.67
    в
    0.67
    0.66
    9
    0.66
    доро
    0.66
    0.66
    цию
    0.65
    POSITIVE LOGITS
    前面的
    0.70
    -
    0.70
    0.64
    分析
    0.63
    od
    0.62
    0.61
    组织
    0.61
    前面
    0.60
     přip
    0.59
    主题
    0.57
    Act Density 0.004%

    No Known Activations