some contents improving and fixing (#32205)

pull/36571/head
Tarasow 2019-08-07 20:43:49 +03:00 committed by Randell Dawson
parent 1f147aaf30
commit ffa4ff6262
1 changed files with 10 additions and 9 deletions

View File

@ -2,18 +2,19 @@
title: Introduction to NLP
localeTitle: Введение в НЛП
---
## Контур
## Содержание
* мотивация
* Случаи применения
* Мотивация
* Примеры использования
* Как работает обработка естественного языка
* Языковое моделирование
* Дальнейшие чтения
* Что читать дальше
## мотивация
## Мотивация
Мы всегда мечтали, чтобы машины поняли наш язык. С тех пор, как Хомский придумал бесплатные грамматики контекста, лингвисты хотели придумать решения для понимания контекстно-зависимых грамматик. Поэтому естественно, что академический ученик развился вокруг этой темы.
## Случаи применения
## Примеры использования
Люди использовали эту концепцию во множестве интересных приложений. Немногие из интересных включают Google Translate, Siri или Gmail ответы автоответ. Тем не менее, люди работают над тем, как улучшить эти прогнозы, и ведутся современные исследования в отношении того, как заставить машины отвечать на вопросы более надежно.
@ -25,7 +26,7 @@ localeTitle: Введение в НЛП
Для тех, кто хочет попасть в эту область, я намерен начать с 2 концепций.
#### токенизации
#### Токенизации
Здесь задача звучит просто. Учитывая корпус (набор предложений), генерируйте отдельные токены (значащие слова). Нам нужно обозначить слова и предложения. Первый подход, который приходит на ум, состоит в том, чтобы разделить на период и пространство. Это, однако, не работает. Подумайте, мистер Джон. Являются ли предложения «г-н» и «Иоанн» 2? Конечно нет. Теперь рассмотрим дефис разделенные слова. Вы хотите разбить их на 2 слова или на одно слово? Эти сложные вопросы делают задачу токенизации не столь простой. Идем дальше и выбираем корпус из nltk и создаем собственное регулярное выражение для вашего собственного токенизатора!
@ -33,6 +34,6 @@ localeTitle: Введение в НЛП
Следующей задачей является создание языковой модели. Здесь мы рассмотрим предположение, что n-е слово зависит только от предыдущих n-1 слов. Наиболее часто используются 2-граммовые и 3-граммовые модели. Чтобы построить 3-граммовую модель, просто объедините 3 жетона и подсчитайте их частоту в корпусе. Теперь вы готовы предсказать вероятность группы из трех слов!
## Дальнейшие чтения
## Что читать дальше
Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать.