Компания "Яндекс" 2 ноября представила новый поисковый алгоритм под названием "Палех", который использует в работе нейросети и способен находить страницы, которые соответствуют не только ключевым словам, но и смыслу запроса пользователя.
"Каждый день поиск "Яндекса" отвечает примерно на 280 миллионов запросов. Какие-то из них, например "ВКонтакте", люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны - их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много - около ста миллионов в день", - говорится в сообщении, опубликованном в блоге компании.
Своим названием новый алгоритм обязан специфике графика частотного распределения запросов в "Яндексе", который представляют в виде птицы с клювом, туловищем и длинным хвостом. Так, короткий "клюв" включает самые распространенные и часто задаваемые запросы. Запросы средней частотности образуют "туловище" птицы. Наконец, низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в длинный "хвост".
"Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из "длинного хвоста". Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех", - поясняют в компании.
Сложные запросы из хвоста можно разделить на несколько групп. Например, одна из них представляет собой запросы пользователей, которые общаются с поисковиком как с живым собеседником, а другая - запросы тех, кто пытается вспомнить название книги или фильма по содержанию, например "фильм про человека который выращивал картошку на другой планете" ("Марсианин").
"Особенность запросов из "длинного хвоста" в том, что обычно они более сложны для поисковой системы. Запросы из "клюва" задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть - а значит, "Яндексу" гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному", - говорится в сообщении.
Новый алгоритм решает эту задачу при помощи нейронных сетей, которые были обучены на накопленной базе текстов поисковых запросов и заголовках веб-страниц. В результате нейросеть научилась понимать смысловое соответствие между запросом и заголовками страниц.
"Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных "Яндексу" заголовков веб-страниц в числа - а точнее, в группы из трехсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трехсотмерном пространстве", - говорится в сообщении.
Представить такое пространство и описанную систему координат достаточно трудно, поэтому для упрощения в компании предлагают представить, что каждой веб-странице соответствует группа не из трехсот, а из двух чисел. Тогда получится, что каждое число - это определенная координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Такой способ обработки запроса и его сопоставления с вероятными ответами в компании назвали семантическим вектором.
"Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит еще точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете - то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам", - говорится в релизе.
По мнению создателей алгоритма, далекая цель состоит в том, чтобы получить на основе нейронных сетей модели, способные "понимать" семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.
---------
Оригинал статьи http://hitech.classic.newsru.com/article/03nov2016/paleh
Пнд | Втр | Ср | Чт | Пт | Сб | Вс |
---|---|---|---|---|---|---|
25 | 26 | 27 | 28 | 29 | 30 | 1 |
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 | 1 | 2 | 3 | 4 | 5 |
Copyright © 2011
ООО "Поволжский Процессинговый Центр". Все права защищены.
Продолжая пользование сайтом, я выражаю согласие на обработку моих персональных данных.