logo
 

НАЧАЛЬНАЯ ШКОЛА

РУССКИЙ ЯЗЫК

 

ИСТОРИЯ РОССИИ

БИОЛОГИЯ

ГЕОГРАФИЯ

МАТЕМАТИКА

Хотя грамматики Хомски давали замечательные результаты, было ясно, что нужно нечто большее. Ответ пришел из области больших данных. По мере того как знания, деловая активность и социальное взаимодействие переходят в интернет, объем разговорных данных растет в геометрической прогрессии. Первое использование этих данных заключалось в автоматическом создании языковых правил с применением метода ИИ под названием «деревья решений».

Деревья решений похожи на поведенческие деревья, используемые для управления роботами. Это, как правило, ряд закрытых вопросов, помогающих делать прогноз или классифицировать входные данные по различным группам. Алгоритмы, которые генерируют деревья решений (такие как ID3, C4.5 и C5.0), задействуют обучающие данные и пытаются извлечь как можно больше информации из каждого решения. Поэтому, если у вас есть утверждения «жарко, прогноз солнечный», «жарко, прогноз дождливый» и «тепло, прогноз облачный», вы получите больше информации, если разделите функции «прогноз» и «температура». Другими словами, дерево решений должно сначала спросить о прогнозе и лишь затем о температуре.

В последние годы этот метод приобрел большую популярность благодаря созданию «случайных лесов» – комбинаций деревьев решений, используемых вместе, каждое из которых обучается на меньшем подмножестве данных, чтобы предотвратить переобучение (когда модель, изученная ИИ, становится слишком избирательной к данным обучения и не может обобщать новые данные).




Судя по этому примеру, высокие шансы быть спасенными с «Титаника» имели мальчики, девушки и женщины из кают первого или второго класса.

Деревья решений популярны, потому что их легко понять. В отличие от нейросетевых подходов, которые являются своего рода черным ящиком (вы не знаете, как хранится информация или как принимаются решения), в деревьях решений вы всегда видите, что происходит. Если ваше дерево представляет собой решение того, какие слова и предложения при каких обстоятельствах употреблять, значит, вы сделали простой чат-бот.

Хотя эти методы работают относительно хорошо, наши языки все еще слишком сложны для такого простого машинного обучения. Исследователи поняли, что изучение огромного массива данных позволяет выявить статистическую вероятность ответов на любое утверждение. Это может использоваться для управления целым рядом приложений – от языкового перевода до прогнозирования текста и ответов в чат-ботах.

Статистические подходы показали неплохие результаты, за которыми последовала новая волна разработки моделей нейронных сетей. Word2Vec стал одним из самых популярных алгоритмов, использующих простую нейронную сеть с большим количеством данных, чтобы выяснить, какие комбинации слов имеют тенденцию появляться в непосредственной близости друг от друга. Зная набор контекстных слов, он способен предсказать, каким может быть следующее слово, или, если есть текущее слово, – набор возможных контекстных слов.

МАЙКЛ МОЛДИН (р. 1959)

Майкл «Фаззи» Молдин был очарован ранними экспертными системами. Будучи студентом, в конце 1980-х – начале 1990-х годов он создал серию программ, которые автоматически взаимодействовали с ранними текстовыми компьютерными играми – «многопользовательскими виртуальными мирами». Первая программа, Gloria, могла контактировать с игроками-людьми, которые не подозревали, что их собеседник – компьютер. Вторая, Julia, была достаточно сложной, чтобы вести простые разговоры, и могла выступать в роли гида, информационного помощника, стенографиста и ретранслятора сообщений в виртуальном мире. Но на рождении этого чат-бота работа не остановилась. Его создали, чтобы исследовать текстовый мир, где описания связаны ссылками. Это был естественный шаг к следующему творению Молдина: Lycos – поисковой веб-системе, которая изучала раннюю Всемирную паутину, также представлявшую текстовый мир со ссылками между страницами. Lycos стала одной из первых поисковых систем и веб-порталов, запущенных в 1994 году, а также первой публичной поисковой системой в 1996 году, опередив конкурентов – Yahoo! и Excite, – и достигла рыночной стоимости в 300 миллионов долларов к концу первого дня торгов. К 1997 году она являлась самой прибыльной интернет-компанией в мире.

С помощью подобных умных алгоритмов удалось достигнуть реальных успехов. ИИ теперь способны сами выучить грамматику на достаточном количестве текстовых примеров. Они могут помечать части речи (глаголы, существительные), разбивать предложения на слова (сложная задача в случае с китайским языком, где границы слов не отмечены пробелами). Они могут распознавать именованные сущности, когда имена собственные обозначают места, имена или организации, а также определять логические значения предложений, переводя их в логические выражения. Они даже способны «почувствовать» настроение текста – это позитивная или негативная статья? Технологии, лежащие в основе этих достижений, все чаще используют варианты глубокого обучения со сверточными нейронными сетями, обучения с подкреплением и другие типы, такие как рекуррентные нейронные сети, рекурсивные нейронные сети, механизмы внимания и генеративные модели, помогающие компьютерам понимать концепты, занимающие несколько предложений, и генерировать более качественные ответы.

 

Я надеюсь помочь Lycos снова изменить мир, когда мы освоим девственную территорию носимых устройств и интернета вещей.

МАЙКЛ МОЛДИН (2015)

 

Чат-бот глубокого обучения может лучше понимать темы из нескольких предложений:

– Привет, Neuralconvo.

– привет! как у вас сегодня дела?

– Я пишу книгу. Ничего, если я процитирую твои ответы?

– конечно, я готов поиграть в бейсбол. вы?

– Ты читаешь книги?

– да, я читаю их много

– Какая твоя любимая?

– мне нравятся детективы, а еще я люблю играть в бейсбол

– Какой твой любимый детектив?

– я люблю играть в бейсбол, у меня также есть кошка

– Какой твой любимый автор?

– да, но не детектив. у вас есть домашние животные?

 

Поиск

 

ФИЗИКА

 

Блок "Поделиться"

 
 
Яндекс.Метрика Top.Mail.Ru

Copyright © 2021 High School Rights Reserved.