Применение нового алгоритма позволяет избавиться от двух недостатков Палеха и Королева:
- отсутствия возможности полностью учитывать порядок слов;
- описания всей сути текстового контента ограниченным вектором.
При использовании трансформера каждая отдельная составляющая текстового контента трансформировалась в отдельный вектор с сохранением своего положения.
Этот алгоритм обучается по принципу постепенного решения задач. Другими словами, сначала необходимо решить одну задачу. Ее решение позволяет получить определенные данные, которые затем могут использоваться повторно для решения других задач.
Изначально трансформер получает большое количество простых и чаще всего недостоверных данных от пользователей Яндекс.Толоки. Но эти данные все равно используются для предобучения. Затем трансформер использует данные от экспертов, в качестве которых выступают специально обученные асессоры Яндекса.
Одна из ключевых особенностей трансформера заключается в предугадывании действий пользователя. Эта метрика будет обязательно рассматриваться в ходе ранжирования сайтов.