Каталог статей
Поиск по базе статей  
Статья на тему Интернет » Продвижение и оптимизация » Оценка исходящих ссылок для подсчета PR с учетом не проиндексированных.

 

Оценка исходящих ссылок для подсчета PR с учетом не проиндексированных.

 

 

Введение

Отбор и упорядочивание результатов по запросам для трех миллиардов гипертекстовых документов, которые составляют веб-граф G(V,E), представляется работой крайне трудной, вместе с тем, очень важной. Анализу ссылочного ранжирования отводится главная роль в статье.

Постепенное разрастание и динамическая природа веб-графа вынуждают проводить анализ ссылочного ранжирования, основываясь на схемах ранжирования, подобных PageRank. При этом обязательно нужно учесть “потерянную” информацию, возникающую в связи с тем, что некоторые гипертекстовые документы не проиндексированы поисковыми системами.

В связи с этим возникает вопрос о точности рассчитанной величины PageRank: как можно оценить “потерянную” информацию и включить ее в расчет PageRank.

загрузка...

 

 

Об этом будет сказано позже.

Итерационный расчет PageRank и недостаточные данные

Недостаток информации о ссылках со страниц, которые не были проиндексированы роботами поисковых систем, представляется в итерациях при расчете PR в качестве незаполненных строк матрицы переходов, чье стационарное распределение выражается через вектор PageRank. Под стационарным распределением понимается такое распределение вероятности, которое не меняется с течением времени.

Таким образом, необходимо либо удалить те вершины графа, которые учитываются при расчете, либо изменить предсказанное распределение (нормализованный вектор вершин графа). Далее будет показано, как недостаток информации может серьезно повлиять на точность расчета PageRank.

Но для начала дадим определение словосочетанию “точность PageRank”.

Определение №1: Дано подмножество Vk вершин графа G(V,E), реальные PR подмножества Vk – это PR, учтенные в подграфе G’(Vk,Ek) и смоделированные для вершин Vk, следовательно, G’ имеет ограничения xy∈E, x,y∈Vk

На любой стадии процесса подсчета PR все множество гипертекстовых документов V может быть разделено на подмножество проиндексированных страниц С и подмножество не проиндексированных страниц С’. Определим множество С следующим образом F={p:∃(q∈C)|(q,p)∈E}. Впредь запись q→p будет использоваться для обозначения записи вида (q,p)∈E. Выделим также подмножество страниц, известных, но не проиндексированные роботами поисковых систем Fc'={F∩C'} . Ссылки с данных страниц и на эти страницы не будут учитываться при расчете PR. Также обозначим множество {C∪Fc'} уже известным Vk и введем следующее обозначение Nk=|Vk|.

Определение №2. “Достоверность”:Зададим неполной матрице переходов размерность N и распределение p(⋅) , чтобы получить ряды, не соответствующие заданным условиям (нормализованный вектор исходящих ссылок). Подсчет PR считается достоверным в том случае, если разница между рассчитанным и реальным PR составляет O.

Замечание №1: Для исходящих ссылок, с равномерным распределением p(⋅), расчет PR верен, если размерность подмножества неизвестных вершин веб-графа не превышает O(√Nk).

Предположим, что распределение исходящих ссылок равномерное, однако это утверждение, не является догмой. Предполагается, что выборка исходящих ссылок больше разрежена, нежели та, которая получена равномерной дискретизацией по всему множеству N. Более точное приближение может быть получено, если брать симплексы с меньшей размерностью. Под симплексом понимается геометрическая фигура, представляющая собой n-мерное обобщение треугольника.

Установим нашему симплексу размерность N. Однако, может оказаться так, что разница результатов, полученных при равномерном распределении и при выборе симплексов меньшей размерности, возрастет.

Данный момент необходимо учесть в качестве неизвестных переменных матрицы переходов. За более подробным объяснением данного аспекта нужно обратиться к источнику [2], где описывается работа исключительно с проиндексированными страницами.

Стационарное распределение может быть выявлено. Однако, окончательные PR могут быть подсчитаны только после того, как будут проделаны многочисленные расчеты. Также не стоит забывать, что только определенное количество итераций может быть использовано для расчета PR вершин из подмножества FC' .

Дальнейший анализ позволит нам определиться с PR для страниц, которые не проиндексированы.

Оценка количества “висящих” ссылок.

Рассматривается тот метод, когда будут заполняться неизвестные строки матрицы переходов переменными, не связанными с равномерным распределением. Можно предположить, что распределение значений переходов учитывает усредненное значение, чтобы под влиянием достаточно слабых ограничений перейти к стационарному распределению или к оценкам PR.

Замена неизвестных значений их ожиданиями является одним из самых известных допущений. Наиболее наглядным способом представления веб-графа является графический. График должен сыграть решающую роль в понимании основных моментов. Модель, в которой одни вершины связаны с другими вершинами пропорционально их PR вырабатывает фундаментальные законы, описанные в источнике [3].

Необходимо проводить итерационные вычисления многократно, где каждый следующий PR будет рассчитываться, заполняя при этом пустые строки матрицы. Таким образом, найдем вектор r, при замене которого как неизвестного ряда, мы вновь получим наши PR. Величину r можно будет рассчитать аналитическим путем, не прибегая к большому количеству расчетов на каждой итерации.

Замечание №2: Подсчет PR страниц из подмножества С, осуществляемый итерацией за итерацией, постепенно заполняя PR матрицу переходов, обеспечивает достоверность PR при условии, что входные данные в неизвестных строках будут иметь такое же распределение как и вектор r.

Кластеризованная оценка.

В данном случае нашей целью является оценка неопределенных рядов PR-ов матрицы T, то есть выявление условного распределения P(y2|y1) и соответствующего стационарного распределение вектора новых PR-ов, вектора r. Для этого вводится динамическая модель.

Существует вероятность того, что страница , связанная со страницей , может быть выражена через множество переменных Z. Данная модель исчислена в случайных переменных Z путем введения таких ограничений, что конечные столбцы и строки имеют одинаковое распределение. Данные ограничения имеют также большую ценность в том, что совместное распределение дискретных случайных величин, может быть отражено с помощью цепей Маркова.

Таким образом, появляется возможность пусть более грубого подсчета PR, но с возможностью конечной оценки данного подсчета. Модель можно представить следующим образом:

Множество Y может быть смоделировано как фиксированное множество независимых параметров, несмотря на то, будет ли меняться множество Y или нет. Данный аспект позволяет использовать модель в качестве динамической. Однако здесь мы сталкиваемcя с очередной проблемой: как оценить P(y2)? Для этого нужно определиться с вероятностями переходов P(y2|y1), которые в свою очередь требуют знания P(y2).

Введем следующие обозначения:

U[i,j]=P(Z(yi)=i|yi

диагональная матрица R[i,j]=p(yi)=ri и r[i] = P(yi)

Используя равенство (1) и свойство стационарности получаем:

Составив для матриц A и U линейное уравнение |Y|=Nk, неизвестные могут быть найдены многочисленными итерациями с выбранной максимальной энтропией линейных ограничений.

Расстояние L1 между реальными и предсказанными строками матрицы переходов показано на рис.1 для некоторого подмножества веб-графа. Байесовский подход используется здесь для сравнения


Рис.1 Сравнение результатов предсказания веса исходящих оценка висящих ссылок, кластеризованная оценка, байесовский подход, равномерное распределение и распределение, соответствующее нулевой гипотезе.

Более полную информацию о расчете PR можно получить из следующих источников:

  1. http://www-dbv.cs.uni-bonn.de/abstracts/hofmann.TR-98-042.html;
  2. /redir.php?url=dbpubs.stanford.edu%3A8090%2Fpub%2F1999-66%3C%2Fa%3E%3B
  3. href="/redir.php?url=www.cs.brown.edu/research/pubs/pdfs/2005/Pandurangan-2005-UPC.pdf">/redir.php?url=www.cs.brown.edu%2Fresearch%2Fpubs%2Fpdfs%2F2005%2FPandurangan-2005-UPC.pdf%3C%2Fa%3E.

Sreangsu Acharyya, Joydeep Ghosh

Перевод под редакцией Сергея Стружкова


Статья получена: www.SeoNews.ru
загрузка...

 

 

Наверх


Постоянная ссылка на статью "Оценка исходящих ссылок для подсчета PR с учетом не проиндексированных.":


Рассказать другу

Оценка: 4.0 (голосов: 16)

Ваша оценка:

Комментарии (1)

Андрей, 26 февраля 2011, 08:03

могли бы вы рассчитать стоимость ссылки с портала объявлений
готовы заплатить за консультацию

ответить

Ваш комментарий

Имя:
Сообщение:
Защитный код: включите графику
 
 



Поиск по базе статей:





Темы статей






Новые статьи

Противовирусные препараты: за и против Добро пожаловать в Армению. Знакомство с Арменией Крыша из сэндвич панелей для индивидуального строительства Возможно ли отменить договор купли-продажи квартиры, если он был уже подписан Как выбрать блеск для губ Чего боятся мужчины Как побороть страх перед неизвестностью Газон на участке своими руками Как правильно стирать шторы Как просто бросить курить

Вместе с этой статьей обычно читают:

Баланс входящих и исходящих ссылок

Одним из важных аспектов поискового продвижения (SEO) является создание сети обратных ссылок. Определяя релевантность сайта, все поисковые системы полагаются на обратные ссылки. Однако следует помнить, что они по-разному оценивают подобные ссылки.

» Продвижение и оптимизация - 2111 - читать


“Миллион” способов получения обратных ссылок для раскрутки блога

Блог без обратных ссылок - тухлячёк, который надобно окучивать ежедневно. Что такое раскрутка? Раскрутка это то, после чего о вас все знают ну или хотя бы слышали.

» Продвижение и оптимизация - 5476 - читать


Преимущества и недостатки программ для учета и мониторинга ссылок

Общеизвестно, что для продвижения сайтов зачастую не хватает регистрации в каталогах, обмена ссылками и внутренней оптимизации сайта. Что уж тут говорить о высококонкурентных запросах... В рамках современного SEO-рынка получила популярность покупка и продажа ссылок, главным образом, с главных и внутренних страниц.

» Продвижение и оптимизация - 4576 - читать


СКиФ® - Новые возможности для автоматизации учета.

Необходимость автоматизации учета на всех стадиях технологической це-почки при осуществлении торгово-закупочной деятельности в настоящее время ни у кого не вызывает сомнения. Возникает лишь вопрос - каким программным обеспечением следует воспользоваться для решения этой задачи. Рынок про-граммного обеспечения предлагает большое количество программ автоматиза-ции учета, отличающихся функциональными возможностями при решении ос-новных задач учета, сервисными функциями, скорос ...

» Безопасность бизнеса - 3386 - читать


Критерии оценки персонала. Рецепт для тех, кому некогда

ПЕРСОНАЛ-МИКС Научно-практический журнал по вопросам управления персоналом. / Елена Борисова генеральный директор компании "U-Consult" (Санкт-Петербург) Любой руководитель в своей работе постоянно сталкивается с необходимостью оценивать подчиненных — для принятия решений о поощрениях, продвижении, обучении, результатах испытательного срока, изменении заработной платы или премировании. Легко руководителю, которого служба персонала «вооружила» таким инструментом, как процедура ...

» Управление и менеджмент - 2681 - читать



Статья на тему Интернет » Продвижение и оптимизация » Оценка исходящих ссылок для подсчета PR с учетом не проиндексированных.

Все статьи | Разделы | Поиск | Добавить статью | Контакты

© RusAdvice.Org, 2006-2014, при копировании материалов, прямая индексируемая ссылка на сайт обязательна.

Энциклопедия RusAdvice.Org