ELMo

Архитектура ELMo: входные токены преобразуются в векторные представления, затем обрабатываются двунаправленными LSTM слоями, создавая контекстуальные представления.
Процесс преобразования токенов через слои ELMo. Токен сначала преобразуется в вектор с помощью линейного слоя, затем проходит через forward и backward LSTM для дальнейшей обработки.

ELMo (от англ. Embeddings from Language Models) — метод Векторного представления слов для представления последовательности слов в виде последовательности векторов.[1] ELMo был разработан учеными из Института искусственного интеллекта Аллена и Вашингтонского университета в 2018 году.

Архитектура ELMo основана на двунаправленных LSTM и использует входные данные на уровне символов для создания контекстуально-чувствительных встраиваний слов. Это делает ELMo полезным для задач обработки естественного языка, таких как разрешение кореференции и определение смысла слов в контексте (например, различение омонимов).

Архитектура

ELMo включает многослойную двунаправленную LSTM, которая накладывается на слой встраивания токенов. Входная последовательность сначала преобразуется в векторные представления с помощью слоя встраивания. Затем применяются два параллельных процесса:

  • Прямой (forward) LSTM анализирует токены с учётом контекста предыдущих слов.
  • Обратный (backward) LSTM анализирует токены с учётом последующих слов.

Результаты каждого слоя объединяются и проецируются в финальное представление размерностью 512.

ELMo был предварительно обучен на корпусе из 1 миллиарда слов. После предобучения модель может быть дообучена под конкретные задачи, что делает её одной из первых моделей, реализовавших подход «предобучение — дообучение».

Контекстуальная репрезентация слов

Одной из ключевых особенностей ELMo является способность учитывать контекст. Например, слово «банк» в предложениях:

  • «She went to the bank to withdraw money.»
  • «The birds are sitting one the bank.»

будет иметь различные представления в зависимости от контекста.

Историческая значимость

ELMo сыграл важную роль в развитии моделей обработки текста. В отличие от ранее популярных методов, таких как Word2vec и GloVe, ELMo создаёт уникальные представления для слов, исходя из их контекста. Модель также стала важным шагом к появлению BERT и других трансформерных архитектур.

Примечания

  1. Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, Zettlemoyer L (2018). Deep contextualized word representations. arXiv:1802.05365.