Ответ на вопрос №15017: С чем связана сложность использования классической кросс-энтропии при обучении языковой модели на длинном контексте? Значения для всех слагаемых суммы, кроме одного, равны О. Получаемые значения становятся слишком маленькими. RNN должна пройтись по всем токенам п раз и столько раз посчитать loss. Нейросеть слишком долго обучается и поэтому увеличивается риск затухания градиента. С чем связана сложность использования классической кросс-энтропии при - Ответ на вопрос №15017С чем связана сложность использования классической кросс-энтропии при - Ответ на вопрос №15017
2024-01-222024-01-22СтудИзба
С чем связана сложность использования классической кросс-энтропии при - Ответ на вопрос №15017
Вопрос
С чем связана сложность использования классической кросс-энтропии при обучении языковой модели на длинном контексте?Значения для всех слагаемых суммы, кроме одного, равны О.
Получаемые значения становятся слишком маленькими.
RNN должна пройтись по всем токенам п раз и столько раз посчитать loss.
Нейросеть слишком долго обучается и поэтому увеличивается риск затухания градиента.
Ответ
Все деньги, вырученные с продажи, идут исключительно на шаурму