Главная

Статьи

Як працює нейросеть Google Translate

  1. Тонкощі нейронного перекладу: як це працює
  2. Проектний менеджмент як він є
  3. Як діє алгоритм перекладача
  4. Статистика: чи дійсно стало краще?
  5. І невеликий бонус наостанок

Google Translate по праву вважається машинним перекладачем № 1 в світі. Сервіс підтримує роботу зі 103 мовами і кожен день обробляє близько 500 мільйонів запитів.

У 2016 році Google представила систему нейронного машинного перекладу (GNMT), яка використовує штучну нейронну мережу для поліпшення якості перекладу.

Чи справді переклад став краще з її допомогою? Давайте дізнаємося!

Тонкощі нейронного перекладу: як це працює

Нейронна модель машинного перекладу використовує інші принципи роботи з текстом, ніж стандартний статистичний метод перекладу.

До появи нейронних мереж переклад проводився пословно - система переводила окремі слова і фрази з урахуванням граматики. Тому при складних оборотах або довгих пропозиціях якість перекладу залишало бажати кращого.

GNMT ж переводить речення цілком, з огляду на контекст. Система не запам'ятовує сотні варіантів перекладу фраз - вона оперує семантикою тексту.

При перекладі пропозиція розбивається на словникові сегменти. Потім за допомогою спеціальних декодерів система визначає «вага» кожного сегмента в тексті. Далі обчислюється максимально можливі значення і переклад сегментів. Останній етап - з'єднати перекладені сегменти з урахуванням граматики.

Проектний менеджмент як він є

Створення бізнесу, проведення заходу або випуск нового продукту - успіх будь-якого проекту залежить від знань і навичок проектного менеджера.

І знання, і навички, і кейси твоїх конкурентів ми розберемо на онлайн-програмі підвищення кваліфікації в області проектного менеджменту. В процесі навчання ти освоїти мистецтво управління проектами на всіх етапах, навчишся досягати необхідних результатів при обмежених ресурсах і зрозумієш, як мотивувати команду вкладати в проект частину душі.

Поки ти думаєш, у нас діють спеціальні умови на вступ.

Реклама


Уривок з презентації GNMT, в якому показано, як нейронна мережа переводить пропозицію з китайської мови, розбиваючи його на смислові сегменти

Як діє алгоритм перекладача

Щоб зрозуміти принципи роботи нейронного перекладу від Google, давайте трохи заглибимося в технічні деталі.

В основі Google Neural Machine Translation лежить принцип роботи рекурентних двонапрямлених нейронних мереж (Bidirectional Recurrent Neural Networks), які працюють з матричними обчисленнями ймовірності.

Розберемо докладніше, що все це означає.

«Рекурентності» говорить, що система обчислює значення слова або фрази на основі попередніх значень в послідовності. Саме це дозволяє системі враховувати контекст і правильно вибирати серед різних варіантів перекладу.

Двунаправленность означає, що нейросеть розділена на два потоки - аналізує і синтезує. Кожен потік складається з восьми шарів, які і проводять векторний аналіз.

Перший потік розбиває пропозицію на смислові елементи і аналізує їх, а другий вираховує найбільш ймовірний варіант перекладу, виходячи з контексту і модулів уваги.

Перший потік розбиває пропозицію на смислові елементи і аналізує їх, а другий вираховує найбільш ймовірний варіант перекладу, виходячи з контексту і модулів уваги

Зверніть увагу, що аналізує мережу «читає» пропозицію не тільки зліва направо, а й справа наліво - це дозволяє в повній мірі зрозуміти контекст. Окремо вона формує модуль уваги, за допомогою якого другий потік розуміє цінність окремих смислових фрагментів.

У нейронної системі найменшим елементом є не слово, а фрагменти слова. Це дозволяє зосередити обчислювальні потужності нема на словоформах, а на контексті і сенсах пропозиції. GNMT використовує близько 32 000 таких фрагментів. За словами розробників, це дозволяє забезпечити високу швидкість і точність перекладу без споживання надмірних обчислювальних потужностей.

Аналіз фрагментів сильно зменшує ризики неточного перекладу слів і словосполучень з різними суфіксами, префіксами і закінченнями.

Система самонавчання дозволяє нейронної мережі з високою точністю переводити навіть ті поняття, які відсутні в загальноприйнятих словниках - сленг, жаргонізми чи неологізми.

Але це ще не все. Нейросеть може працювати і побуквенно. Наприклад, при транслітерації назв з одного алфавіту на інший.

Статистика: чи дійсно стало краще?

З моменту запуску системи GNMT пройшло 2 роки, тому можна оцінити результати.

Чому саме зараз? Справа в тому, що нейронна система працює без встановленої бази даних, і їй потрібен час, щоб побудувати і скорегувати методи перекладу.

Наприклад, настройка машинної моделі перекладу, яка використовує статистичні методи, займає від 1 до 3 днів. При цьому побудова нейронної моделі такого ж розміру займе більше 3 тижнів.

Примітно, що при збільшенні бази час на обробку статистичної моделі росте в арифметичній прогресії, а для нейронної мережі - в геометричній. Чим більше база, тим більше розрив у часі.

А якщо врахувати, що Google Translate працює з 10 000 мовних пар (103 мови), то зрозуміло, що адекватні підсумки можна підводити тільки зараз.

У листопаді 2016 роки після повного закінчення навчання системи і офіційного запуску аналітики Google представили докладний аналіз результатів GNMT . З нього випливає, що поліпшення в точності перекладу несуттєві - в середньому 10%.

Найбільший приріст дали найпопулярніші мовні пари на зразок іспанська-англійський або французький-англійський - з результатом точності в 85-87%.

У 2017 компанія Google проводила масштабні опитування користувачів Google Translate: їх просили оцінити 3 варіанти перекладів: машинний статистичний, нейронний і людський. Тут результати виявилися більш цікавими. Переклад за допомогою нейромереж в деяких мовних парах виявився дуже наближений до людського.



Статистична модель Нейронна мережа перекладачів

Англійська - Іспанська 4,885 5,428 5,550

Англійська - Французький 4,932 5,295 5,496

Англійська - Китайський 4,035 4,594 4,987

Іспанська - Англійська 4,872 5,187 5,372

Французький - Англійська 5,046 5,343 5,404

Китайська - Англійська 3,694 4,263 4,636

За основу взята 6-бальна система оцінювання якості перекладу. 6 - максимальна оцінка, 0 - мінімальна

Як бачите, якість перекладу в мовних парах «англійська-іспанська» і «французький-англійський» практично відповідає людському. Але це і не дивно, адже саме на цих мовних парах відбувалося глибоке навчання алгоритмів.

Ось ті ж результати в графічному відображенні, щоб ви наочно побачили різницю зі стандартним машинним перекладом.

Ось ті ж результати в графічному відображенні, щоб ви наочно побачили різницю зі стандартним машинним перекладом

З іншими мовними парами ситуація не така райдужна, але масштабного дослідження по ним немає. Проте, якщо зі схожими за структурою мовами нейронний переклад працює цілком добре, то з кардинально різними мовними системами (наприклад, японська та російська) переклад помітно поступається людському.

При цьому варто зауважити, що розробники при запуску нейронної мережі не намагалися досягти максимальної точності перекладу. Все тому, що він зажадав би складних евристичних конструкцій, а це сильно знизило б швидкість роботи системи. Розробники постаралися знайти баланс між точністю і швидкістю роботи. На нашу суб'єктивну думку, це у них вийшло.

І невеликий бонус наостанок

Фахівці стверджують, що якщо нейронна система Google Translate навчиться оперувати не тільки текстами, але також і аудіо- та відеофайлами, то в такому випадку потрібно очікувати різкий стрибок у розвитку машинного перекладу. Перші кроки в цих сферах вже зроблені, активно ведуться розробки нових алгоритмів для аналізу відео і аудіо. Тому користувачі можуть вже в найближчі кілька років очікувати нових сюрпризів від Google.

Читайте також: 9 маловідомих, але корисних функцій перекладача Google

Тизер: © Kylli Sparre

Думка редакції може не збігатися з думкою автора. Ваші статті надсилайте нам на [email protected] . А наші вимоги до них - ось тут .

Чи справді переклад став краще з її допомогою?
Статистика: чи дійсно стало краще?
Чому саме зараз?

Новости