INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ctus
    0.44
    innis
    0.40
    लेरिया
    0.38
     nostrils
    0.38
     Теннис
    0.38
     Besucher
    0.38
     बराम
    0.37
    ccion
    0.36
    ड्ड
    0.36
    viles
    0.36
    POSITIVE LOGITS
    本体
    1.02
     main
    0.98
     основного
    0.91
     основной
    0.85
     本体
    0.77
    main
    0.77
     core
    0.77
     основ
    0.77
     głów
    0.75
     główn
    0.74
    Act Density 0.162%

    No Known Activations