From ffa4ff626207ca4f144958dec9d1f1fe5314b5ea Mon Sep 17 00:00:00 2001 From: Tarasow Date: Wed, 7 Aug 2019 20:43:49 +0300 Subject: [PATCH] some contents improving and fixing (#32205) --- .../natural-language-processing/index.md | 19 ++++++++++--------- 1 file changed, 10 insertions(+), 9 deletions(-) diff --git a/guide/russian/natural-language-processing/index.md b/guide/russian/natural-language-processing/index.md index 2198560593e..72a331e8018 100644 --- a/guide/russian/natural-language-processing/index.md +++ b/guide/russian/natural-language-processing/index.md @@ -2,18 +2,19 @@ title: Introduction to NLP localeTitle: Введение в НЛП --- -## Контур +## Содержание -* мотивация -* Случаи применения +* Мотивация +* Примеры использования +* Как работает обработка естественного языка * Языковое моделирование -* Дальнейшие чтения +* Что читать дальше -## мотивация +## Мотивация Мы всегда мечтали, чтобы машины поняли наш язык. С тех пор, как Хомский придумал бесплатные грамматики контекста, лингвисты хотели придумать решения для понимания контекстно-зависимых грамматик. Поэтому естественно, что академический ученик развился вокруг этой темы. -## Случаи применения +## Примеры использования Люди использовали эту концепцию во множестве интересных приложений. Немногие из интересных включают Google Translate, Siri или Gmail ответы автоответ. Тем не менее, люди работают над тем, как улучшить эти прогнозы, и ведутся современные исследования в отношении того, как заставить машины отвечать на вопросы более надежно. @@ -25,7 +26,7 @@ localeTitle: Введение в НЛП Для тех, кто хочет попасть в эту область, я намерен начать с 2 концепций. -#### токенизации +#### Токенизации Здесь задача звучит просто. Учитывая корпус (набор предложений), генерируйте отдельные токены (значащие слова). Нам нужно обозначить слова и предложения. Первый подход, который приходит на ум, состоит в том, чтобы разделить на период и пространство. Это, однако, не работает. Подумайте, мистер Джон. Являются ли предложения «г-н» и «Иоанн» 2? Конечно нет. Теперь рассмотрим дефис разделенные слова. Вы хотите разбить их на 2 слова или на одно слово? Эти сложные вопросы делают задачу токенизации не столь простой. Идем дальше и выбираем корпус из nltk и создаем собственное регулярное выражение для вашего собственного токенизатора! @@ -33,6 +34,6 @@ localeTitle: Введение в НЛП Следующей задачей является создание языковой модели. Здесь мы рассмотрим предположение, что n-е слово зависит только от предыдущих n-1 слов. Наиболее часто используются 2-граммовые и 3-граммовые модели. Чтобы построить 3-граммовую модель, просто объедините 3 жетона и подсчитайте их частоту в корпусе. Теперь вы готовы предсказать вероятность группы из трех слов! -## Дальнейшие чтения +## Что читать дальше -Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать. \ No newline at end of file +Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать.