some contents improving and fixing (#32205)
parent
1f147aaf30
commit
ffa4ff6262
|
@ -2,18 +2,19 @@
|
|||
title: Introduction to NLP
|
||||
localeTitle: Введение в НЛП
|
||||
---
|
||||
## Контур
|
||||
## Содержание
|
||||
|
||||
* мотивация
|
||||
* Случаи применения
|
||||
* Мотивация
|
||||
* Примеры использования
|
||||
* Как работает обработка естественного языка
|
||||
* Языковое моделирование
|
||||
* Дальнейшие чтения
|
||||
* Что читать дальше
|
||||
|
||||
## мотивация
|
||||
## Мотивация
|
||||
|
||||
Мы всегда мечтали, чтобы машины поняли наш язык. С тех пор, как Хомский придумал бесплатные грамматики контекста, лингвисты хотели придумать решения для понимания контекстно-зависимых грамматик. Поэтому естественно, что академический ученик развился вокруг этой темы.
|
||||
|
||||
## Случаи применения
|
||||
## Примеры использования
|
||||
|
||||
Люди использовали эту концепцию во множестве интересных приложений. Немногие из интересных включают Google Translate, Siri или Gmail ответы автоответ. Тем не менее, люди работают над тем, как улучшить эти прогнозы, и ведутся современные исследования в отношении того, как заставить машины отвечать на вопросы более надежно.
|
||||
|
||||
|
@ -25,7 +26,7 @@ localeTitle: Введение в НЛП
|
|||
|
||||
Для тех, кто хочет попасть в эту область, я намерен начать с 2 концепций.
|
||||
|
||||
#### токенизации
|
||||
#### Токенизации
|
||||
|
||||
Здесь задача звучит просто. Учитывая корпус (набор предложений), генерируйте отдельные токены (значащие слова). Нам нужно обозначить слова и предложения. Первый подход, который приходит на ум, состоит в том, чтобы разделить на период и пространство. Это, однако, не работает. Подумайте, мистер Джон. Являются ли предложения «г-н» и «Иоанн» 2? Конечно нет. Теперь рассмотрим дефис разделенные слова. Вы хотите разбить их на 2 слова или на одно слово? Эти сложные вопросы делают задачу токенизации не столь простой. Идем дальше и выбираем корпус из nltk и создаем собственное регулярное выражение для вашего собственного токенизатора!
|
||||
|
||||
|
@ -33,6 +34,6 @@ localeTitle: Введение в НЛП
|
|||
|
||||
Следующей задачей является создание языковой модели. Здесь мы рассмотрим предположение, что n-е слово зависит только от предыдущих n-1 слов. Наиболее часто используются 2-граммовые и 3-граммовые модели. Чтобы построить 3-граммовую модель, просто объедините 3 жетона и подсчитайте их частоту в корпусе. Теперь вы готовы предсказать вероятность группы из трех слов!
|
||||
|
||||
## Дальнейшие чтения
|
||||
## Что читать дальше
|
||||
|
||||
Область НЛП огромна. Если вы прочитали это далеко и выполнили вышеизложенное, вам это, безусловно, понравилось. Продолжайте читать книгу Юрафского, чтобы узнать еще несколько новых концепций. Помните, что важно их реализовать.
|
Loading…
Reference in New Issue