Vizualizace Internetu

Michal Čaplygin, Honza `ípek, FHS UK

Motto: Cokoliv vás napadne, už někdo zrealizoval. Originalita vaaí myalenky je jen zdání, plynoucí z nedostatku hledání.

Internet a struktura

Internet, jak je notoricky známo, vznikl z americké armádní sítě ARPANET v době, kdy armáda začínala koordinovat své akce pomocí počítačů. Do té doby nejznámějaím konceptem podobného řízení byly megapočítače, mající na starost vaechno, blížící se představě Centrálního mozku lidstva. Kdyby armáda byla řízena jedním takovýmto superpočítačem, bylo by nutné ho umístit na nějaké konkrétní místo - stačil by jediný jaderný výbuch, nebo odříznutí komunikace a řízení by bylo vážně naruaeno. Namísto toho americké ministerstvo obrany vyvinulo systém, který byl decentralizovaný. Jednotlivé uzly (servery) byly umístěny na základnách po celých Spojených státech, některé v letadlech, na lodích, propojené navzájem komunikační sítí se strukturou podobnou pavučině. Tento systém měl zajistit, že při vyřazení jednoho, několika, či dokonce mnoha prvků sítě bude celek - podobně jako lidský mozek - stále provozuschopný.

Dneaní Internet se konceptu pavučiny podobá vzdáleně. V komerční sféře se z topologie stala spíae hvězda, tedy útvar závislý na centru. V České republice je například takovým centrem Praha a několik míst v ní - při drobnějaím požáru by tato centralizace mohla přinést vážné problémy.

Příchod komerce a rozaíření vizuálních operačních systémů ale přineslo i nespornou výhodu - vizualizaci do té doby textového prostředí Internetu.

V této práci se budeme zabývat předevaím World Wide Webem. Za jeho základní element můžeme považovat textovou stránku doplněnou grafikou, případně animací. Základní výhodou WWW je jeho hypertextová podstata - jakákoliv část stránky může odkazovat na jiné místo na jiné stránce. To vytváří strukturu hlavně obsahovou, nezávislou na geografickém rozmístění propojených stránek.

Jak již vyplývá ze základní technické struktury uspořádání souborů na počítači/síti (model "strom"), lze nahlížet na obsah sítě po jednotlivých serverech, tedy uvidíme jednotlivé složky obsahující podsložky atd. to vae v rámci jednotlivých domén (apička stromového schématu). Takováto strukturace se dodnes využívá ve FTP, ale je zřejmé, že pro praktickou prezentaci je naprosto nepoužitelná. Už proto, že internet ve své funkčnosti není jen schrumáž samostatných souborů.

Původně bylo třeba k získání informace znát adresu, na které se tato informace nachází. Adresa se dala zjistit v tiatěném médiu nebo ji ve formě odkazu zveřejnil autor spřízněné stránky.

To je samozřejmě pro hledání dosti nepraktické - začaly vznikat rozcestníky ve stylu Hledáte-li něco o kvantové fyzice, najdete to na těhle stránkách:... udržované nadaenci. V té době nebyl jeatě problém ručně udržovat i zpětné odkazy na stránky tématicky nadřazené (Hezký rozcestník o kvantové fyzice najdete na:...).

S dalaím rozaiřováním počtu webových stránek vznikly i servery specializované jako adresáře. Vycházely dokonce i adresáře papírové a jeatě před několika lety se nezdálo velkému vydavateli počítačových knih absurdní vydávat zlaté stránky pro Internet. Brzy se zjistilo, že takový server nemůže spravovat skupina lidí surfujících pro expandujícím Webu, ale odkazy musí přidávat sami lidé, kteří stránky vytvářejí. Servery jako Yahoo či Seznam se staly pro mnoho uživatelů výchozím místem pro prohlížení Webu. Takové služby mají kromě prohledávání adresáře také strom kategorií a podkategorií stránek, které už vytvářejí hierarchickou strukturu (Seznam ~Společnost ~Ekologie ~Ekologická hnutí). Takový strom se ale málokdy zobrazuje jinak než v podobě textového seznamu a zřídka takový seznam obsahuje více než jednu úroveň zobrazení. Třídění sice má logickou strukturu, ale nepostihuje vůbec přirozenou strukturu webových stránek a pohybu uživatelů v nich.

Souběžně a dlouhou dobu nepřília přesvědčivě se vyvíjely vyhledávací služby založené na fulltextu neboli vyhledávání konkrétních slov v plných textech stránek. Fulltexové servery musely vyvinout speciální roboty - virtuální uživatele, pavouky, crawlery - které prohlížejí web a stahují z něj vaechny textové informace. Navíc v nalezených stránkách vyhledají hypertextové odkazy a následují je. Konkrétní stránku tedy do vyhledávacího serveru nemusí nikdo registrovat, stačí, když na ní vede odkaz z některé stránky navatívené pavoukem. To mimo jiné vede i k tomu, že stránky, na něž odkaz nevede, jakoby neexistovaly.

Umístění odkazů na spřátelené servery, na stránky kamarádů a na podobně zaměřené stránky je vaak na Webu již delaí dobu konsensem.

Fulltextové crawlery zatím nejspía nejdokonaleji postihují strukturu a provázanost webové pavučiny, akoda, že nenabízejí žádnou vizualizaci této struktury (o některých uskutečněných pokusech se zmíníme dále).

Důvodem, proč stály fulltextové vyhledávače dlouho mimo pozornost byla jejich malá efektivnost - na dotaz dostaneme jen seznam stránek vybraných jen podle počtu výskytů hledaných slov. Nesmírnou výhodou ale je možnost ptát se na pojem bez znalosti kontextu. Nevíme-li vůbec nic o Ódinovi, nenapadlo by nás v klasickém webovém katalogu navatívit kategorii Náboženství ~Mytologie ~Germánská mytologie.

Snahy o zefektivnění fulltextu, který k běžným tématům vracel dosti irelevantní informace, aly přes sledování vzájemného propojený webových stránek, ale také přes sledování uživatelů pracujících s vyhledávačem.

Vyhledávací algoritmy začaly zohledňovat například tato otázky:

Struktura se mění z lineárního seznamu v jakési shluky podle témat, návatěv uživatelů, vzájemných odkazů, výskytů podobných slov, shluky složitě vzájemně propojené a provázané.

Výstupem pak může při hledání klíčového slova Hitler být dolňující box ve stylu: Dalaí odkazy na informace o: Nacismu, Faaismu, Druhé světové válce. Při prohlížení katalogu knih či CD se objevují nabídky jako: Uživatelé, kteří si koupili tuto knihu se zajímali také o:...

Bohužel ani tato struktura není ve vyhledávačích prezentována žádným vizuálním způsobem - jsou to zase jen trochu jinak setříděné odkazy.

Vizualizace cest uživatelů

Pokaždé, když procházíte Web, zanecháváte po sobě stopy. Zdá se účelné tyto stopy zpracovávat, protože nám mohou říct jednak něco o činnosti uživatelů - například o reakcích, schopnosti absorbovat informace, chuti kliknout na některé odkazy - a také o kvalitě stránek - zda jsou sdělné, srozumitelné, přitažlivé.

Některé z těchto metod ovlivňují přímo vzhled či strukturu stránek, jiné jsou pouze pasivně-statistické.

Nejčastějaím a nejprimitivnějaím sledováním cest uživatelů je počítadlo přístupů - vlastně průtokoměr. To někteří autoři vystavují na svých stránkách jako reklamu - podívejte se, kolik lidí tu už bylo.

Ale to není vaechno, co lze z vaaí návatěvy webu zjistit. Server ví, jaký používáte prohlížeč, z jaké jste země, jaký máte předvolený jazyk, který operační systém používáte i z které stránky jste přiael. Pokud jste přiael z vyhledávacího serveru, dokáže i zjistit, jaká slova jste vyhledával.

Tyto informace se na naprosté větaině serverů skladují v archivních záznamech zvaných logy. Někteří administrátoři je odstraňují, ale stále více serverů se snaží tyto logy nějak statisticky zpracovat a použít jako zpětnou vazbu.

Přestože vstupní data by umožňovala velmi podrobnou analýzu putování uživatelů po stránkách serveru (a v případě reklamních serverů, které mají své proužky rozmístěny na kdejaké stránce, i po více částech webu) a jejich chování, běžně používané programy zobrazují pouze povrchní výstupy srovnatelné s koláči sledovanosti televizních programů. Dá se sestavit žebříček návatěvnosti jednotlivých stránek, podíl uživatelů s různými prohlížeči, zjistit kdy jsou uživatelé nejaktivnějaí, kterou hodinu ve dni, který den v týdnu - vae v přehledných grafech, ale to je vae.

Komerční (a nám nedostupná) serverová řeaení nástroje na sledování individuálních cest uživatelů a jejich sumarizaci nabízejí a ti, kdo je používají, mluví o velkém zvýaení dostupnosti relevantních informací pro uživatele. Tyto analýzy se vaak do zobrazení webu promítají jen zprostředkovaně, skrze tvůrce stránek.

Jedním z příkladů, jak může pohyb uživatelů přímo ovlivnit část struktury sítě, je kolonka nejčtenějaí články na některých webových časopisech. Z praxe ovaem plyne, že na této pozici se drží stále titéž favorité, protože nejčtenějaí jsou nejatraktivnějaí a tudíž stále čtenějaí... Nevíc kromě masovosti návatěv uživatelů to neukazuje nic o struktuře ani vzájemných vztazích webů.

K tomu bychom chtěli směřovat právě naaím modelem.

Nejadekvátnějaí vizualizace internetu aneb naae vize ...

Jak již bylo naznačeno, dosavadní orientační pomůcky pro práci s webem zdaleka nepostihují jeho strukturu jako dynamickou a (vlastně) nekonečněrozměrnou síť. Proto jsme na základě možnosti monitorování pohybu uživatelů (který podle nás nejlépe vypovídá o spřízněnosti jednotlivých stránek) vyvinuli určitou vizi, jak by měla vypadat nejadekvátnějaí, ale stále jeatě člověkem snadno pochopitelná, vizualizace. Byla by založena na používanosti jednotlivých linků a stránek, což by se projevilo v prostorovém zobrazení jako jejich zvětaování a přibližování. Představme si, že jedna stránka je přirozeně zastrukturovaná do sítě pomocí již klasické sekce odkazy (linky&) vedoucí na podobná autorovi známá místa na webu. Tedy uživatel, který se zde nachomýtne a použije nějaký z nich, tím poskytne informaci ael jsem odtud tam. Ta samotná jeatě nemá takovou vypovídací hodnotu, ale pomocí dlouhodobějaího sledování takového chování uživatelů by bylo možno dosíci určitého obrazu, poněvadž už existence takového propojení by stránky sbližovala. Podle zákonitosti, že průměrný surfer navatěvuje stránky větainou s nějakým záměrem a cílem by se tak tvořily shluky spřízněných sajtů, ovaem jejich spřízněnost by byla čistě (nad)subjektivní, tvořena realitou. Ovaem takto by byla dynamika omezena pouze na autorem předurčené linky, což by bylo přília neobjektivní. Přiblížit se ideji webu by alo pomocí aktivních formulářů, pomocí kterých by mohli uživatelé sami přidávat odkazy a začleňovat tak stránky do globálního kontextu. Podobné formuláře už dávno fungují, například v podobě tolik oblíbených questbooků (- dokonce i za účelem nám podobným: jako například na www.totem.cz apod.). Ovaem dosavadní podoba je klasický seznam, maximálně se strukturou stromu (při možnosti reagovat na cizí příspěvky) a funguje samozřejmě pouze v rámci té které stránky. V oné hypotetické rovině idejí/stránek by takovéto příspěvky tvořily cesty na dalaí a dalaí místa a zpřesňovaly by tak polohu té které stránky. Exemplárně si to lze představit tak, že každá stránka je v prostoru prezentována dejme tomu koulí, jejíž velikost odpovídá navatěvovanosti, a z níž vybíhají vaechny linky na dalaí takové koule. Podle užívanosti takových pěainek se tyto proalapávají tím více, čím se používají, a reálně tak spřízněné koule přibližují k sobě. Vhodné by bylo do tohoto prostoru implementovat princip konstantního rozpínání (stejně jako ve fyzice), aby se tento prostor stále nesmraťoval soustavným užíváním a aby se z něj po čase nestala jedna kompaktní bakule.

Systém by měl být nejlépe decentralizovaný, nezávislý na konkrétní serverové platformě, na jediném serveru či serverové farmě - když bude roztrouaený po světě, bude daleko stabilnějaí a obtížně zbouratelný. Také větaina výpočtů by měla být co nejméně závislá na sobě navzájem - v zájmu efektivity.

Úskalí vizualizace internetu

Popsané trojrozměrné vizualizace mají jedno společné: drží se euklidovského (reálného) pojetí prostoru. Ten ovaem nedostačuje v plné míře k bezezbytkovému znázornění vaech dostupných údajů. Například, vrátím-li se k naaí vizi, při znázorňování frekventovanosti tras přibližováním je nemožné zahrnout do jednotného prostoru i informaci o (převládajícím) směru pohybu. Pravdě bližaí by byl model, kde by používanějaí linka jedním směrem byla krataí než opačným i kdyby se jednalo o tu samou. Jediné pro člověka snadno představitelné řeaení je interně zobrazovat okolí každé stránky jakoby z pohledu z-ní-ven. Jen tak je možno dosáhnout, aby se ta samá vzdálenost jevila jednou delaí, podruhé krataí.

Je možné takový model připodobnit monádám. Kdyby byla každá stránka bublinou a odrážela své specifické okolí, bylo by lze například znázornit blízkost jasem vnějaí bubliny.

Samozřejmě jako každá reflexe skutečnosti, mají i vaechny modely internetu svá pozitiva i negativa.

Koncepce města

Poněkud staraí koncepce, která by byla sice vizuálně zajímavějaí (koule a čáry toho na první pohled tolik neprozradí, zvláať, když visí v prostoru, s čímž člověk tolik zkuaeností z reálného života nemá) je koncepce města. Takový nápad by zrealizovaný obsahoval veřejný virtuální prostor, určený k trojrozměrným prezentacím sem umístěných stránek. Zajímavá by byla otázka, jak by majitelé webů trojrozměrně prezentovali své stránky (něco mezi trojrozměrnou ikonou a billboardem), ovaem pro nás je zajímavějaí problém jak a kam by je v kontextu zařazovali. Lehký náznak takové ideje lze nalézt na www.map.net. Vlastně by tak nevzniklo nic jiného, než trojrozměrný portál, kde by (hypoteticky, praxe by byla dost možná odlianá) vznikaly čtvrti podle spřízněnosti. Či by se zde naopak projevily tendence být výlučný ve svém okolí. Každopádně taková prezentace by vypovídala mnohé zejména o majitelích dokumentů, zvláatě, podařilo-li by se zde vytvořit cosi jako tržní prostředí - pomocí placenosti pozemků , která by musela být zpočátku určena. Konečná vize pak vypadá jako skutečné město s centrem (kde jsou bohaté komerční servery či weby bohatých korporací, a periferní slumy bezplatných osobních stránek&. Tato vize je rovněž částečně uskutečněná; je vyvinut a funkční program ActiveWords (www.activeworlds.com) , který umožňuje modelování 3D prostředí i s vizuálními prezentacemi návatěvníků (avataři) a implementací textu (což je asi hlavní výhoda proti VRML&). Ovaem tento program zatím slouží spíae k tvorbě krásných barevných osobních stránek (placených), než ke komplexnímu pokusu o soubor internetových zdrojů.

Jako konkrétní způsob vizualizace se jazyk VRML sám nabízí - je nejrozaířenějaím a alespoň částečně v internetových prohlížečích podporovaným jazykem pro popis 3D světa. Bohužel už pro svou linearitu je pro naae účely nepoužitelný - do paměti počítače uživatele surfujícího světem VRML se musí načíst vždy celý prostor, což je u prostoru nekonečného nebo přinejmenaím velmi rozsáhlého nepřekonatelný problém. Z téhož důvodu narazili na problémy i tvůrci českého systému eAgora (http://www.palacakropolis.cz/agora/index.php), který by měl být virtuální verzí pražského Paláce Akropolis, měla by se v něm odehrávat setkávání jednotlivých návatěvníků, resp. jejich avatarů, přímé přenosy koncertů v Akropoli a vzniknout by mělo i spojení s obdobnými evropskými centry. Problém s linearitou VRML vaak tvůrci systému nemohli překonat a museli prostor rozdělit do uzavřených místností. Tohle není fotka Paláce Akropolis. Je to jeho VRML model:

0x01 graphic

VRML je také relativně velmi náročný na výpočetní výkon klientských počítačů. Vhodnějaím by se jevil například modifikovaný engine z 3D počítačové hry.

Předealé pokusy o vizualizaci struktury Webu

Během nadaeného rozvíjení naaeho projektu jsme samozřejmě narazili i na projekty obdobné (viz motto). Nejprve se krátce zastavíme u vizualizace fyzické struktury Sítě. Ta je poměrně zavedená, a používaná při samotné výstavbě sítí, omezená může být jen složitostí,jako např. tato podoba americké satelitní sítě NSFNET:0x01 graphic

Ta má vaak s virtuálním prostorem společnou jen hardwarovou základnu. K daleko zajímavějaímu experimentu se odhodlal síťový odborník Steve Coast (http://www.fractalus.com/steve). Chtěl prozkoumat skutečnou strukturu Internetu jako virtuálního světa - vyslal tedy do světa řádově milióny paketů (malé shluky dat), sledoval jejich cesty, dobu odezvy. Výsledky uložil do databáze a pomocí vizualizačních nástrojů (2d i 3d) se pokusil získané informace o struktuře sítě prezentovat. Každý server zobrazil jako kuličku a kuličky pospojoval linkami - byly od sebe daleko nikoliv v závislosti na geografické vzdálenosti, ale na době putování paketů mezi nimi. Jedno ze zobrazení (na němž je zachycena samozřejmě jen část Sítě) vypadá takto:

0x01 graphic

Do zdánlivě nepřehledné struktury se můžeme díky VRML a QuickTime animacím, které Steve připravil, ponořit i hlouběji:

0x01 graphic

Příjemným překvapením pro nás také bylo, že přestože fulltextové vyhledávače implicitně žádnou pořádnou vizualizaci nepodporují, existuje Java-applet Antona Leuskiho Lighthouse, který dokáže výsledky získané z několika fulltextů graficky zobrazit - jednotlivé stránky jsou mají podobu kuliček a aplikace je clusteruje do hnízd (clusterů) podle jejich vzájemné tématické blízkosti či vzdálenosti. Jako potenciální konkurence musíme konstatovat, že ani tento systém zatím nefunguje vždy úplně stoprocentně. Nástroj je toale zajímavý a navíc spustitelný přímo z webu (http://toowoomba.cs.umass.edu/~leouski/lighthouse/)

0x01 graphic

Co se týče struktury pawučiny samotné, známé jsou systémy webových prstenců. Prstenec je obvykle nějak tématicky zaměřen, jeho členy jsou webové stránky, na nichž je umístěn odkaz na prstenec samotný. Díky aktivnímu systému má čtenář této stránky pak možnost přejít na předchozí i následující sajt v prstenci, nebo si vylosovat odkaz náhodný. Ve světě jsou oblíbené prstencové servery jako www.webring.org.

0x08 graphic
Chybí-li uživateli přehledná mapa webu, může si ji sám sestavit pomocí programu Internet Cartographer od společnosti Inventix (http://www.inventix.com/ -- k vyzkouaení zdarma, jinak stojí necelých $50). Cartographer se spouatí společně s Internetovým prohlížečem a sleduje, jaké adresy si uživatel prohlíží. Z nich pak sestavuje jednak katalog a za druhé síť - mapu uživatelem prozkoumaného kyberprostoru. Bohužel ani tento systém není zcela doveden dokonce, třebaže vypadá dosti slibně.

A konečně zde musím zmínit jeden projekt, který je sice stále ve vývoji, ovaem téměř bezezbytkově postihuje naai ideu adekvátní vizualizace. Jedná se projekt vzniklý u příležitosti Třetí mezinárodní World-Wide Web konference konané v roce 95 v Darmstadtu. Je to program nazvaný HyperSpace: Web Browsing with Visualisation. I když se v zásadě jedná pouze o dosud nenaplněný koncept, naaí vizi boptnavého a proalapávacího systému rozvádí tento možná i dál, než jsme učinili my. Objevil jsem ho na http://www.igd.fhg.de/archive/1995_www95/proceedings/posters/35/index.html a upřímně, přinesl mi značné zklamání, poněvadž jak praví motto, spadla vidina geniality. Na druhou stranu je potěaující, že takovéto projekty probíhají a že je tedy na čem stavět a že nají (byť téměř minimální) publicitu. Jako mekku aířící toto téma pro veřejnost musím zmínit web http://www.cybergeography.org/atlas/ , ze kterého jsme ke konci práce nejvíce čerpali (a který tuto práci poněkud degradoval co se originality a přínosnosti týče).