INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ссыл
    -0.07
    optional
    -0.07
    ikk
    -0.07
    reib
    -0.06
    isen
    -0.06
                    
    -0.06
     Soph
    -0.06
     python
    -0.06
    zioni
    -0.06
    Electric
    -0.06
    POSITIVE LOGITS
    def
    0.14
     def
    0.07
    .def
    0.07
     Кроме
    0.07
     ван
    0.06
    .TAG
    0.06
     sinus
    0.06
    	def
    0.06
     exemplary
    0.06
     atención
    0.06
    Act Density 0.012%

    No Known Activations