Znajdź mnie, jeśli potrafisz

Karol Kloc

publikacja 10.08.2010 10:10

Internet zawiera niewyobrażalną liczbę informacji. W jaki więc sposób wyszukiwarki znajdują w nim akurat to, czego chcemy?

Znajdź mnie, jeśli potrafisz Carson Ting / CC 2.0

Wyszukiwarki można porównać do czytelnika, który w bibliotece poszukuje książki na interesujący temat. Od tego, w jaki sposób szuka, zależy czy i jak szybko znajdzie – może chodzić wzdłuż półek, wyjmować na chybił trafił, czy skorzystać z katalogu. Podobnie jest z wyszukiwarkami – w zależności od tego, jak przeszukują strony internetowe, dostarczają nam różnych wyników.

Słowo klucz
Wszystkie mechanizmy wyszukiwania opierają się na słowach kluczach. Jeśli szukamy informacji o prezydencie Francji, wyszukiwarka przeszukuje internet pod kątem dwóch słów – prezydent i Francja. Problemem jednak nie jest znalezienie jakichkolwiek stron, ale takich, które zawierają informacje, których szuka użytkownik. Jeśli szuka danych o polityce Nicolasa Sarkozy’ego, to artykuł o jego ślubie z Carlą Bruni na niewiele mu się przyda. Dlatego stworzono różne mechanizmy wyszukiwania, które w odpowiedni sposób przeszukują strony internetowe pod kątem zawieranych przez nie informacji.

Pierwotnie strony grupowano w katalogi – tak jak w bibliotece. Grupy ochotników przypisywały strony do odpowiednich kategorii, np. polityka czy chemia. Do dziś jest to najskuteczniejszy sposób katalogowania treści, ponieważ żaden program, w przeciwieństwie do człowieka, nie jest w stanie w sposób bezbłędny ocenić, czy dana strona zawiera ciekawe materiały, czy nie. Największym katalogiem jest DMoz – zawiera on 5 mln stron, a obsługiwany jest przez blisko 15 tys. ochotników. Każdy z nich musi być specjalistą w danej dziedzinie, więc strona umieszczona w kategorii militaria na pewno będzie zawierała interesujące nas informacje.

Człowiek nie da rady
Jednak skatalogowanie wszystkich informacji z internetu przez człowieka jest niemożliwe, bo jest ich po prostu za dużo. Dlatego powstały specjalne programy, które automatycznie katalogują strony. Początkowo przeszukiwano stronę pod kątem ilości słów kluczy – po wpisaniu do wyszukiwarki słów „Francja” i „prezydent” program prezentował najpierw te strony, na których te słowa powtarzały się najczęściej. Problem polegał na tym, że szybko pojawiły się strony, które zawierały dużo słów kluczy, ale nie były związane z wyszukiwaną treścią – najczęściej były to strony pornograficzne, które w ten sposób przyciągały nieświadomych użytkowników.

Inną metodą, pierwszy raz zastosowaną przez firmę Google, był mechanizm analizy topologii sieci. Co to takiego? Twórcy Google’a uznali, że to nie zawartość strony powinna decydować o tym, na którym miejscu ona się ukaże w wynikach, ale ilość linków (czyli odnośników do strony zamieszczonych na innych witrynach). Dzięki zastosowaniu tego rozwiązania Google do dziś jest najczęściej używaną wyszukiwarką w większości krajów świata. Założenie było proste – jeśli ktoś umieszcza link do strony na innej witrynie, to musiał na niej znaleźć coś użytecznego. Żeby uniknąć manipulacji, przeszukiwane linki dobiera się losowo, dzięki czemu stronom niezwiązanym z tematem dosyć trudno znaleźć się na pierwszych miejscach w wynikach wyszukiwania. Manipulowanie wynikami jest utrudnione, ale wciąż możliwe. W 2009 roku ktoś spowodował, że odnośniki do strony prezydenta RP pojawiały się na stronach obok słowa „kretyn”. W efekcie po wpisaniu go do wyszukiwarki pojawiała się strona internetowa prezydenta. Osobę, która to zrobiła, złapano. Za obrazę głowy państwa grozi jej do 3 lat więzienia.

Szukając w przyszłości
Wyszukiwarki to niezwykle dochodowy interes dzięki sprzedaży reklam – bo jeśli ktoś wpisuje słowo „samochód” i wyświetli mu się reklama jednego z producentów, jest niemal pewne, że reklama trafi do odbiorcy, który jest nią zainteresowany. Skoro interes jest dochodowy, to nic dziwnego, że na rynku wyszukiwarek panuje ostra konkurencja, a różne firmy starają się udoskonalić mechanizmy wyszukiwania. Przykładem może być portal społecznościowy Facebook. Jego użytkownicy mogą klikać na stronach przycisk „lubię to”, jeśli polecają innym daną stronę. Im więcej takich kliknięć, tym wyższa pozycja w wynikach wyszukiwania. Mechanizm ten promuje najpopularniejsze strony, co ma też swoje wady – jeśli szukamy uprawnień prezydenta, a trwa akurat kampania wyborcza, to prawdopodobnie zostaniemy skierowani na stronę któregoś z kandydatów.

Także Google – czołowy gracz na rynku – stara się udoskonalać swoje mechanizmy wyszukiwania: 19 lipca zakupił Metaweb – wyszukiwarkę semantyczną. Przeszukuje ona zasoby sieci nie tylko pod kątem danego słowa, ale i sensu zdania. Na przykład kiedy wpisujemy zdanie „zamek w spodniach z Będzina”, wyszuka nam strony dotyczące zamków błyskawicznych, a nie zabytkowych spodni w muzeum na zamku w Będzinie. Na razie mechanizm ten jest jeszcze niedoskonały, jednak za kilka lat prawdopodobnie zamiast wpisywać konkretne słowa klucze do wyszukiwarki, będziemy wpisywać całe zdania typu „jak nazywa się autor »Władcy Pierścieni«”. Nie jest to zresztą jedyny pomysł Google’a na udoskonalenie wyszukiwania. Na podstawie osobistych danych użytkownika też można przeszukiwać zasoby sieci. Jeśli program wie, że mam małe dziecko i nadchodzą święta Bożego Narodzenia, to sam zaproponuje mi, jaki prezent mogę kupić. Jeśli jadę samochodem, to wyszukiwarka automatycznie pokaże mi korki w mojej okolicy i zaproponuje objazd. Problemem może być jednak dostęp i przetwarzanie naszych prywatnych informacji przez Google: nie każdy będzie chciał powierzyć swoje prywatne sprawy w ręce ogromnej korporacji, więc i wyniki wyszukiwania mogą być niecelne. Jedno jest pewne. Niezależnie od tego, jak w przyszłości będzie wyglądało wyszukiwanie treści w internecie i kto będzie dominował w tym sektorze, na pewno będzie on kluczowy dla internetu. Bo kto kontroluje wyszukiwanie, kontroluje internet.