INDEX
Explanations
expressing gratitude for actions
New Auto-Interp
Negative Logits
определить
0.37
சரிய
0.37
করতাম
0.37
резко
0.36
서로
0.35
하거나
0.35
εφαρ
0.35
கிழக்கு
0.35
сли
0.35
而非
0.35
POSITIVE LOGITS
generous
0.68
thoughtfulness
0.68
generosity
0.67
thoughtful
0.66
столь
0.65
gracious
0.63
graciously
0.63
kindly
0.62
इतने
0.57
consideration
0.57
Activations Density 0.014%